ChatTTS:一键安装最接近人声的开源文本语音转换(TTS)模型

斌仔 分类:
文章字数 1425 字 阅读时间 7 分钟
🤖 由 Gemini 生成的文章摘要
此内容根据文章生成,并经过人工审核,仅用于文章内容的解释与总结

ChatTTS 是一个文本到语音转换(Text-to-Speech, TTS)模型,专为对话场景设计,尤其适合用于大型语言模型(LLM)助手的对话任务,以及对话式音频和视频介绍等应用。它支持中文和英文,通过使用大量数据进行训练(大约100,000小时的中英文数据),ChatTTS 能够生成高质量和自然度的语音。

ChatTTS
ChatTTS

ChatTTS特点

  • 多语言支持:包括英语和中文。
  • 大规模数据训练:使用约1000万小时的中英文数据。
  • 对话任务兼容性:适合处理对话任务,提供自然流畅的互动体验。
  • 开源计划:项目团队计划开源经过训练的基础模型。
  • 控制和安全性:致力于提高模型的可控性,添加水印,并与LLMs集成。
  • 易用性:只需文本信息作为输入,就可以生成相应的语音文件。

ChatTTS用途

ChatTTS 可以用于多种用途,例如大型语言模型助手的对话任务、生成对话语音、视频介绍、教育和培训内容的语音合成,以及任何需要文本到语音功能的应用或服务。

ChatTTS官方视频

ChatGPT试听音频

男说话人

女说话人

ChatTTS如何安装使用?

以下是使用 ChatTTS 的基本步骤:

  1. 从GitHub下载:
    从GitHub克隆ChatTTS项目的代码库到本地。

    git clone https://github.com/2noise/ChatTTS
  2. 安装依赖项:
    确保已安装所需的软件包,如torch和ChatTTS。如果尚未安装,可以使用pip进行安装。

    pip install torch ChatTTS
  3. 导入所需库:
    在脚本中导入必要的库,包括torch、ChatTTS以及IPython.display中的Audio。

    import torch
    import ChatTTS
    from IPython.display import Audio
  4. 初始化ChatTTS:
    创建ChatTTS类的实例并加载预训练模型。

    chat = ChatTTS.Chat()
    chat.load_models()
  5. 准备文本:
    定义要转换为语音的文本。

    texts = ["你好,欢迎使用ChatTTS!"]
  6. 生成语音:
    使用infer方法从文本生成语音,并设置use_decoder=True以启用解码器。

    wavs = chat.infer(texts, use_decoder=True)
  7. 播放音频:
    使用IPython.display中的Audio类播放生成的音频。

    Audio(wavs[0], rate=24_000, autoplay=True)
  8. 完成脚本:
    这是供参考的完整脚本示例:

    import torch
    import ChatTTS
    from IPython.display import Audio
    
    # 初始化ChatTTS
    chat = ChatTTS.Chat()
    chat.load_models()
    
    # 定义要转换为语音的文本
    texts = ["你好,欢迎使用ChatTTS!"]
    
    # 生成语音
    wavs = chat.infer(texts, use_decoder=True)
    
    # 播放生成的音频
    Audio(wavs[0], rate=24_000, autoplay=True)

开发人员可以通过使用提供的API和SDK将ChatTTS集成到其应用程序中。集成过程通常涉及初始化ChatTTS模型、加载预训练模型,并调用文本到语音功能从文本生成音频。详细的文档和示例可指导开发人员完成集成过程。

ChatTTS开源地址

如何联系ChatTTS作者

  1. 邮箱:open-source@2noise.com
  2. 对于中文用户,可以加入QQ群:808364215

常见问题

运行 ChatTTS 要多少显存? Infer 的速度是怎么样的?

对于 30s 的音频, 至少需要 4G 的显存. 对于 4090D, 1s 生成约 7 个字所对应的音频. RTF 约 0.65.

ChatTTS 模型稳定性似乎不够好, 会出现其他说话人或音质很差的现象.

这是自回归模型通常都会出现的问题. 说话人可能会在中间变化, 可能会采样到音质非常差的结果, 这通常难以避免. 可以多采样几次来找到合适的结果.

ChatTTS 除了笑声还能控制什么吗? 还能控制其他情感吗?

在现在放出的模型版本中, 只有 [laugh] 和 [uv_break] , [lbreak]作为字级别的控制单元. 在未来的版本中我们可能会开源其他情感控制的版本.

ChatTTS 在线体验

ChatTTS 安装包

  • jianchang512/ChatTTS-ui:一个简单的本地网页界面,直接在网页使用 ChatTTS 将文字合成为语音,支持中英文、数字混杂,并提供API接口。(ChatTTS-ui Windows整合安装包

  • ChatTTS_colab: 一键部署(含离线整合包),基于 ChatTTS ,支持音色抽卡、长音频生成和分角色朗读。简单易用,无需复杂安装。

    版本 地址 介绍
    在线Colab版 Open In Colab 可以在 Google Colab 上一键运行,需要 Google账号,Colib 自带15GB的GPU
    离线整合版 百度网盘 提取码: h3c5 下载本地运行,支持 GPU/CPU,适用 Windows 10 及以上
    离线整合版 夸克网盘 下载本地运行,支持 GPU/CPU,适用 Windows 10 及以上
  • yuhaolove/ChatTTS-WebUI:这是一个依赖于ChatTTS项目的人工智能项目。该项目包括一个Web用户界面,用户可以通过该界面与模型进行交互。

    • 点击下载 Windows安装包 :首次使用请双击或在命令行中运行install.bat。安装完成后将直接启动webui 后续的使用直接双击 run_webui.bat 即可

非常感激每一位打赏的朋友!

支付宝扫码支持
微信扫码支持

扫一扫,请博主喝咖啡☕

文章作者: 斌仔
文章链接: https://www.wangdu.site/software/ai/2104.html
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 文武科技柜

相关推荐

共有 0 条评论