当前位置：文武科技柜 / AI工具 / OpenAI Whisper语音识别文本在线体验及本地部署

OpenAI Whisper语音识别文本在线体验及本地部署

斌仔分类：

AI工具

文章字数 1508 字阅读时间 7 分钟

文章目录

Whisper 是什么
Whisper 可以做什么
Whisper 在线体验
Whisper-WebUI
CapsWriter-Offline
Whisper
Faster Whisper transcription with CTranslate2
video-subtitle-master
distil-whisper
Buzz
Voice Recognition to Text Tool
Chenyme-AAVT
Voice-Pro
其他推荐

🤖 由 ChatGPT 生成的文章摘要

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结

Whisper 是什么

Whisper 是 OpenAI 开发并开源的一个自动语音识别（ASR）系统。该模型基于从网络上收集的 680,000 小时多语种和多任务监督数据进行训练，具有极高的准确性，并且支持多种语言的识别。Whisper 使用了 Transformer 架构，能够处理各种复杂的音频条件，如不同的背景噪声水平、说话者的口音和语速等。

Whisper 可以做什么

在语音转录方面，Whisper可以将音频转换为文字，方便记录和整理。此外，Whisper 还可以用于语音助手、智能客服和在线教育等领域，为用户提供更加智能和高效的服务。为了方便开发者使用，OpenAI 还提供了详细的文档和推理代码。开发者可以根据自己的需求对模型进行微调，以适应特定领域的应用。

Whisper 在线体验

Hugging Face 体验地址，如果打不开请使用富强上网。

Whisper Web：支持通过URL、文件、录音来转录文字
Whisper JAX
Whisper Large V3

Whisper-WebUI

Whisper-WebUI （Whisper Webui - Hugging Face 体验地址）基于 Gradio 的 Whisper 浏览器界面。您可以将其用作简易字幕生成器！

CapsWriter-Offline

HaujetZhao/CapsWriter-Offline : CapsWriter 的离线版，一个好用的 PC 端的语音输入工具

完全离线、无限时长、低延迟、高准确率、中英混输、自动阿拉伯数字、自动调整中英间隔
热词功能：可以在 hot-en.txt hot-zh.txt hot-rule.txt 中添加三种热词，客户端动态载入
日记功能：默认每次录音识别后，识别结果记录在 年份/月份/日期.md ，录音文件保存在 年份/月份/assets
关键词日记：识别结果若以关键词开头，会被记录在 年份/月份/关键词-日期.md，关键词在 keywords.txt 中定义
转录功能：将音视频文件拖动到客户端打开，即可转录生成 srt 字幕
服务端、客户端分离，可以服务多台客户端
编辑 config.py ，可以配置服务端地址、快捷键、录音开关……

Whisper

Whisper 高性能 GPGPU 推理 OpenAI 的 Whisper 自动语音识别 (ASR) 模型，是 whisper.cpp 实现的 Windows 移植。

Faster Whisper transcription with CTranslate2

faster-whisper 是使用 CTranslate2 对 OpenAI 的 Whisper 模型的重新实现，CTranslate2 是用于 Transformer 模型的快速推理引擎。

与 openai/whisper 相比，在相同精度下，这种实现方式的速度最多可提高 4 倍，同时使用的内存更少。在 CPU 和 GPU 上进行 8 位量化后，效率还能进一步提高。

video-subtitle-master

buxuku/video-subtitle-master : 批量为视频生成字幕，并可将字幕翻译成其它语言。这是一个客户端工具, 跨平台支持 mac 和 windows 系统

distil-whisper

huggingface/distil-whisper 语音识别 Whisper 的精馏变体。速度快 6 倍，体积小 50%，单词错误率在 1%以内。

Buzz

Buzz 可以在个人电脑上离线转录和翻译音频。由 OpenAI 的 Whisper 支持。

支持系统：Mac、Win

Voice Recognition to Text Tool

Voice Recognition to Text Tool 是一个离线运行的本地语音识别转文字工具，基于 fast-whipser 开源模型，可将视频/音频中的人类声音识别并转为文字，可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等，准确率基本等同openai官方api接口。

fast-whisper 开源模型有 base/small/medium/large-v3, 内置base模型，base->large-v3识别效果越来越好，但所需计算机资源也更多，根据需要可自行下载后解压到 models 目录下即可。

支持系统：Win

Chenyme-AAVT

Chenyme-AAVT: 这是一个全自动（音频）视频翻译项目。利用Whisper识别声音，AI大模型翻译字幕，最后合并字幕视频，生成翻译后的视频。

支持识别和翻译多种语言
支持全流程本地化、免费化部署
支持对视频一键生成博客内容、营销图文
支持自动化翻译、二次修改字幕、预览视频
支持开启 GPU 加速、VAD 辅助、FFmpeg 加速
支持使用 ChatGPT、Claude、Gemini、DeepSeek 等众多大模型翻译引擎

Voice-Pro

Voice-Pro 先进的AI驱动多媒体处理工具 | Whisper语音识别WebUI

Voice-Pro 是一款旨在革新多媒体内容处理的尖端AI驱动的Web应用程序。通过提供YouTube视频下载、语音分离、语音识别、翻译和文本转语音等全面功能，为内容创作者、研究者和多语言通信专业人士提供了一站式解决方案。

🔊 尖端语音识别 (Whisper, Faster-Whisper, Whisper-Timestamped)
🎤 使用F5-TTS和E2-TTS进行零样本语音克隆
🎥 YouTube视频处理和音频提取
🔇 专业语音分离（UVR5技术）
📢 多语言文本转语音（Edge-TTS）
🌍 跨100多种语言的即时翻译
🔥 AI封面制作（RVC技术）

Voice-Pro为ElevenLabs提供了一个现实的替代方案，满足寻求先进文本转语音解决方案的内容创作者、播客、研究人员和开发者的需求。

其他推荐

2024年6款免费且准确的语音转文本工具推荐

继续阅读本文相关话题

AI OpenAi 语音转文本

你觉得这篇文章怎么样？

打赏作者

非常感激每一位打赏的朋友！

支付宝

微信

扫一扫，请博主喝咖啡☕

文章作者: 斌仔

文章链接: https://www.wangdu.site/software/ai/2150.html

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

OpenAI Whisper语音识别文本在线体验及本地部署

Whisper 是什么

Whisper 可以做什么

Whisper 在线体验

Whisper-WebUI

CapsWriter-Offline

Whisper

Faster Whisper transcription with CTranslate2

video-subtitle-master

distil-whisper

Buzz

Voice Recognition to Text Tool

Chenyme-AAVT

Voice-Pro

其他推荐

继续阅读本文相关话题

ChatGPT-on-WeChat、WordPress、微信公众号：实现具有AI搜索功能的博客公众号

Windows11 LTSC 2024 企业精简版 ISO 官方中文原版镜像下载 - 纯净稳定/适合低配置/虚拟机

共有 0 条评论

点击这里取消回复。

📄 公告

📢 活动公告

归档

OpenAI Whisper语音识别文本在线体验及本地部署

Whisper 是什么

Whisper 可以做什么

Whisper 在线体验

Whisper-WebUI

CapsWriter-Offline

Whisper

Faster Whisper transcription with CTranslate2

video-subtitle-master

distil-whisper

Buzz

Voice Recognition to Text Tool

Chenyme-AAVT

Voice-Pro

其他推荐

继续阅读本文相关话题

ChatGPT-on-WeChat、WordPress、微信公众号：实现具有AI搜索功能的博客公众号

Windows11 LTSC 2024 企业精简版 ISO 官方中文原版镜像下载 - 纯净稳定/适合低配置/虚拟机

相关推荐

共有 0 条评论

点击这里取消回复。

📄 公告

📢 活动公告

归档