ChatTTS:一键本地安装!最接近人声的开源文本语音转换(TTS)模型
文章目录
ChatTTS 是一个文本到语音转换(Text-to-Speech, TTS)模型,专为对话场景设计,尤其适合用于大型语言模型(LLM)助手的对话任务,以及对话式音频和视频介绍等应用。它支持中文和英文,通过使用大量数据进行训练(大约100,000小时的中英文数据),ChatTTS 能够生成高质量和自然度的语音。
ChatTTS特点
- 多语言支持:包括英语和中文。
- 大规模数据训练:使用约1000万小时的中英文数据。
- 对话任务兼容性:适合处理对话任务,提供自然流畅的互动体验。
- 开源计划:项目团队计划开源经过训练的基础模型。
- 控制和安全性:致力于提高模型的可控性,添加水印,并与LLMs集成。
- 易用性:只需文本信息作为输入,就可以生成相应的语音文件。
ChatTTS用途
ChatTTS 可以用于多种用途,例如大型语言模型助手的对话任务、生成对话语音、视频介绍、教育和培训内容的语音合成,以及任何需要文本到语音功能的应用或服务。
ChatTTS官方视频
ChatGPT试听音频
ChatTTS如何安装使用教程?
以下是使用 ChatTTS 的基本步骤:
-
从GitHub下载:
从GitHub克隆ChatTTS项目的代码库到本地。git clone https://github.com/2noise/ChatTTS
-
安装依赖项:
确保已安装所需的软件包,如torch和ChatTTS。如果尚未安装,可以使用pip进行安装。pip install torch ChatTTS
-
导入所需库:
在脚本中导入必要的库,包括torch、ChatTTS以及IPython.display中的Audio。import torch import ChatTTS from IPython.display import Audio
-
初始化ChatTTS:
创建ChatTTS类的实例并加载预训练模型。chat = ChatTTS.Chat() chat.load_models()
-
准备文本:
定义要转换为语音的文本。texts = ["你好,欢迎使用ChatTTS!"]
-
生成语音:
使用infer
方法从文本生成语音,并设置use_decoder=True
以启用解码器。wavs = chat.infer(texts, use_decoder=True)
-
播放音频:
使用IPython.display中的Audio类播放生成的音频。Audio(wavs[0], rate=24_000, autoplay=True)
-
完成脚本:
这是供参考的完整脚本示例:import torch import ChatTTS from IPython.display import Audio # 初始化ChatTTS chat = ChatTTS.Chat() chat.load_models() # 定义要转换为语音的文本 texts = ["你好,欢迎使用ChatTTS!"] # 生成语音 wavs = chat.infer(texts, use_decoder=True) # 播放生成的音频 Audio(wavs[0], rate=24_000, autoplay=True)
开发人员可以通过使用提供的API和SDK将ChatTTS集成到其应用程序中。集成过程通常涉及初始化ChatTTS模型、加载预训练模型,并调用文本到语音功能从文本生成音频。详细的文档和示例可指导开发人员完成集成过程。
ChatTTS开源地址
- ChatTTS - Hugging Face
- Github地址:2noise/ChatTTS: ChatTTS is a generative speech model for daily dialogue.
如何联系ChatTTS作者
- 邮箱:[email protected]
- 对于中文用户,可以加入QQ群:
808364215
常见问题
运行 ChatTTS 要多少显存? Infer 的速度是怎么样的?
对于 30s 的音频, 至少需要 4G 的显存. 对于 4090D, 1s 生成约 7 个字所对应的音频. RTF 约 0.65.
ChatTTS 模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.
这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.
ChatTTS 除了笑声还能控制什么吗? 还能控制其他情感吗?
在现在放出的模型版本中, 只有 [laugh] 和 [uv_break] , [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.
ChatTTS 在线体验
-
ChatTTS中文版:ChatTTS免费在线使用文本转语音,多线路可选
-
Google colab demo:由Twitter 理想拖 提供
-
ChatTTS: Text-to-Speech Powered By ChatGPT, Google & Microsoft
-
lenML/ChatTTS-Forge:是一个围绕 TTS 生成模型 ChatTTS 开发的项目,实现了 API Server 和 基于 Gradio 的 WebUI,支持Colab、Docker、本地部署。(huggingface体验地址)
ChatTTS 本地部署安装包
-
jianchang512/ChatTTS-ui:一个简单的本地网页界面,直接在网页使用 ChatTTS 将文字合成为语音,支持中英文、数字混杂,并提供API接口。(ChatTTS-ui Windows整合安装包)
-
ChatTTS_colab: 一键部署(含离线整合包),基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读。简单易用,无需复杂安装。
-
yuhaolove/ChatTTS-WebUI:这是一个依赖于ChatTTS项目的人工智能项目。该项目包括一个Web用户界面,用户可以通过该界面与模型进行交互。
- 点击下载 Windows安装包 :首次使用请双击或在命令行中运行
install.bat
。安装完成后将直接启动webui 后续的使用直接双击 run_webui.bat 即可
- 点击下载 Windows安装包 :首次使用请双击或在命令行中运行
ChatTTS增强版
ChatTTS-Enhanced
CCmahua/ChatTTS-Enhanced:只支持Win、Mac
- 音质增强/降噪解决Chat-TTS生成时的噪音问题。
- 支持多TXT、SRT文件批量处理。
- 支持长文本处理,支持中英混读。可自定义切割长度。
- 支持导出srt文件。
- 支持调节语速、停顿、笑声、口语化程度等参数。
- 支持导入ChatTTS Speaker音色。详情看帮助。
- 支持储存音色配置与选项配置。方便管理。
你觉得这篇文章怎么样?
共有 0 条评论