当前位置：文武科技柜 / AI工具 / ChatTTS：一键本地安装！最接近人声的开源文本语音转换(TTS)模型

ChatTTS：一键本地安装！最接近人声的开源文本语音转换(TTS)模型

斌仔分类：

AI工具

文章字数 1595 字阅读时间 8 分钟

文章目录

ChatTTS特点
ChatTTS用途
ChatTTS官方视频
ChatGPT试听音频
ChatTTS如何安装使用教程？
ChatTTS开源地址
如何联系ChatTTS作者
常见问题
ChatTTS 在线体验
ChatTTS 本地部署安装包
ChatTTS增强版
- ChatTTS-Enhanced

🤖 由 ChatGPT 生成的文章摘要

此内容根据文章生成，并经过人工审核，仅用于文章内容的解释与总结

ChatTTS 是一个文本到语音转换（Text-to-Speech, TTS）模型，专为对话场景设计，尤其适合用于大型语言模型（LLM）助手的对话任务，以及对话式音频和视频介绍等应用。它支持中文和英文，通过使用大量数据进行训练（大约100,000小时的中英文数据），ChatTTS 能够生成高质量和自然度的语音。

ChatTTS特点

多语言支持：包括英语和中文。
大规模数据训练：使用约1000万小时的中英文数据。
对话任务兼容性：适合处理对话任务，提供自然流畅的互动体验。
开源计划：项目团队计划开源经过训练的基础模型。
控制和安全性：致力于提高模型的可控性，添加水印，并与LLMs集成。
易用性：只需文本信息作为输入，就可以生成相应的语音文件。

ChatTTS用途

ChatTTS 可以用于多种用途，例如大型语言模型助手的对话任务、生成对话语音、视频介绍、教育和培训内容的语音合成，以及任何需要文本到语音功能的应用或服务。

ChatTTS官方视频

ChatGPT试听音频

男说话人

女说话人

ChatTTS如何安装使用教程？

以下是使用 ChatTTS 的基本步骤：

从GitHub下载:
从GitHub克隆ChatTTS项目的代码库到本地。
```
git clone https://github.com/2noise/ChatTTS
```
安装依赖项:
确保已安装所需的软件包，如torch和ChatTTS。如果尚未安装，可以使用pip进行安装。
```
pip install torch ChatTTS
```
导入所需库:
在脚本中导入必要的库，包括torch、ChatTTS以及IPython.display中的Audio。
```
import torch
import ChatTTS
from IPython.display import Audio
```
初始化ChatTTS:
创建ChatTTS类的实例并加载预训练模型。
```
chat = ChatTTS.Chat()
chat.load_models()
```
准备文本:
定义要转换为语音的文本。
```
texts = ["你好，欢迎使用ChatTTS！"]
```
生成语音:
使用infer方法从文本生成语音，并设置use_decoder=True以启用解码器。
```
wavs = chat.infer(texts, use_decoder=True)
```
播放音频:
使用IPython.display中的Audio类播放生成的音频。
```
Audio(wavs[0], rate=24_000, autoplay=True)
```

完成脚本:
这是供参考的完整脚本示例：

import torch
import ChatTTS
from IPython.display import Audio

# 初始化ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# 定义要转换为语音的文本
texts = ["你好，欢迎使用ChatTTS！"]

# 生成语音
wavs = chat.infer(texts, use_decoder=True)

# 播放生成的音频
Audio(wavs[0], rate=24_000, autoplay=True)

开发人员可以通过使用提供的API和SDK将ChatTTS集成到其应用程序中。集成过程通常涉及初始化ChatTTS模型、加载预训练模型，并调用文本到语音功能从文本生成音频。详细的文档和示例可指导开发人员完成集成过程。

ChatTTS开源地址

ChatTTS - Hugging Face
Github地址：2noise/ChatTTS: ChatTTS is a generative speech model for daily dialogue.

如何联系ChatTTS作者

邮箱：open-source@2noise.com
对于中文用户，可以加入QQ群：808364215

常见问题

运行 ChatTTS 要多少显存? Infer 的速度是怎么样的?

对于 30s 的音频, 至少需要 4G 的显存. 对于 4090D, 1s 生成约 7 个字所对应的音频. RTF 约 0.65.

ChatTTS 模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.

这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.

ChatTTS 除了笑声还能控制什么吗? 还能控制其他情感吗?

在现在放出的模型版本中, 只有 [laugh] 和 [uv_break] , [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.

ChatTTS 在线体验

ChatTTS中文版：ChatTTS免费在线使用文本转语音,多线路可选
Google colab demo：由Twitter 理想拖提供
ChatTTS：（huggingface体验地址）
ChatTTS: Text-to-Speech Powered By ChatGPT, Google & Microsoft
lenML/ChatTTS-Forge：是一个围绕 TTS 生成模型 ChatTTS 开发的项目，实现了 API Server 和基于 Gradio 的 WebUI，支持Colab、Docker、本地部署。（huggingface体验地址）

ChatTTS 本地部署安装包

jianchang512/ChatTTS-ui：一个简单的本地网页界面，直接在网页使用 ChatTTS 将文字合成为语音，支持中英文、数字混杂，并提供API接口。（ChatTTS-ui Windows整合安装包）

ChatTTS_colab: 一键部署（含离线整合包），基于 ChatTTS ，支持音色抽卡、长音频生成和分角色朗读。简单易用，无需复杂安装。

yuhaolove/ChatTTS-WebUI：这是一个依赖于ChatTTS项目的人工智能项目。该项目包括一个Web用户界面，用户可以通过该界面与模型进行交互。
- 点击下载 Windows安装包：首次使用请双击或在命令行中运行install.bat。安装完成后将直接启动webui 后续的使用直接双击 run_webui.bat 即可

版本	地址	介绍
在线Colab版		可以在 Google Colab 上一键运行，需要 Google账号，Colib 自带15GB的GPU
离线整合版	百度网盘提取码: h3c5	下载本地运行，支持 GPU/CPU，适用 Windows 10 及以上
离线整合版	夸克网盘	下载本地运行，支持 GPU/CPU，适用 Windows 10 及以上

ChatTTS增强版

ChatTTS-Enhanced

CCmahua/ChatTTS-Enhanced：只支持Win、Mac

音质增强/降噪解决Chat-TTS生成时的噪音问题。
支持多TXT、SRT文件批量处理。
支持长文本处理，支持中英混读。可自定义切割长度。
支持导出srt文件。
支持调节语速、停顿、笑声、口语化程度等参数。
支持导入ChatTTS Speaker音色。详情看帮助。
支持储存音色配置与选项配置。方便管理。

继续阅读本文相关话题

AI ChatTTS

你觉得这篇文章怎么样？

打赏作者

非常感激每一位打赏的朋友！

支付宝

微信

扫一扫，请博主喝咖啡☕

文章作者: 斌仔

文章链接: https://www.wangdu.site/software/ai/2104.html

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31