OpenAI Whisper语音识别文本在线体验及本地部署
文章目录
Whisper 是什么
Whisper 是 OpenAI 开发并开源的一个自动语音识别(ASR)系统。该模型基于从网络上收集的 680,000 小时多语种和多任务监督数据进行训练,具有极高的准确性,并且支持多种语言的识别。Whisper 使用了 Transformer 架构,能够处理各种复杂的音频条件,如不同的背景噪声水平、说话者的口音和语速等。
Whisper 可以做什么
在语音转录方面,Whisper可以将音频转换为文字
,方便记录和整理。 此外,Whisper 还可以用于语音助手、智能客服和在线教育等领域,为用户提供更加智能和高效的服务。 为了方便开发者使用,OpenAI 还提供了详细的文档和推理代码。 开发者可以根据自己的需求对模型进行微调,以适应特定领域的应用。
Whisper 在线体验
Hugging Face 体验地址,如果打不开请使用富强上网。
-
Whisper Web:支持通过URL、文件、录音来转录文字
Whisper-WebUI
Whisper-WebUI (Whisper Webui - Hugging Face 体验地址)基于 Gradio 的 Whisper 浏览器界面。您可以将其用作简易字幕生成器!
CapsWriter-Offline
HaujetZhao/CapsWriter-Offline : CapsWriter 的离线版,一个好用的 PC 端的语音输入工具
- 完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔
- 热词功能:可以在
hot-en.txt hot-zh.txt hot-rule.txt
中添加三种热词,客户端动态载入 - 日记功能:默认每次录音识别后,识别结果记录在
年份/月份/日期.md
,录音文件保存在年份/月份/assets
- 关键词日记:识别结果若以关键词开头,会被记录在
年份/月份/关键词-日期.md
,关键词在keywords.txt
中定义 - 转录功能:将音视频文件拖动到客户端打开,即可转录生成 srt 字幕
- 服务端、客户端分离,可以服务多台客户端
- 编辑
config.py
,可以配置服务端地址、快捷键、录音开关……
Whisper
Whisper 高性能 GPGPU 推理 OpenAI 的 Whisper 自动语音识别 (ASR) 模型,是 whisper.cpp 实现的 Windows 移植。
Faster Whisper transcription with CTranslate2
faster-whisper 是使用 CTranslate2 对 OpenAI 的 Whisper 模型的重新实现,CTranslate2 是用于 Transformer 模型的快速推理引擎。
与 openai/whisper 相比,在相同精度下,这种实现方式的速度最多可提高 4 倍,同时使用的内存更少。在 CPU 和 GPU 上进行 8 位量化后,效率还能进一步提高。
video-subtitle-master
buxuku/video-subtitle-master : 批量为视频生成字幕,并可将字幕翻译成其它语言。这是一个客户端工具, 跨平台支持 mac 和 windows 系统
distil-whisper
huggingface/distil-whisper 语音识别 Whisper 的精馏变体。速度快 6 倍,体积小 50%,单词错误率在 1%以内。
Buzz
Buzz 可以在个人电脑上离线转录和翻译音频。由 OpenAI 的 Whisper 支持。
- 支持系统:Mac、Win
Voice Recognition to Text Tool
Voice Recognition to Text Tool 是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。
fast-whisper 开源模型有 base/small/medium/large-v3, 内置base模型,base->large-v3识别效果越来越好,但所需计算机资源也更多,根据需要可自行下载后解压到 models 目录下即可。
- 支持系统:Win
Chenyme-AAVT
Chenyme-AAVT: 这是一个全自动(音频)视频翻译项目。利用Whisper识别声音,AI大模型翻译字幕,最后合并字幕视频,生成翻译后的视频。
- 支持识别和翻译多种语言
- 支持 全流程本地化、免费化部署
- 支持对视频 一键生成博客内容、营销图文
- 支持 自动化翻译、二次修改字幕、预览视频
- 支持开启 GPU 加速、VAD 辅助、FFmpeg 加速
- 支持使用 ChatGPT、Claude、Gemini、DeepSeek 等众多大模型翻译引擎
共有 0 条评论