软件指南
约 1967 字大约 7 分钟
指南软件
软件指南
本文档提供了 Cyrene QwenTTS GUI 的详细使用指南,帮助您快速上手并充分利用软件的各项功能。
安装指南
系统要求
- 操作系统: Windows 10/11 (64位)
- 处理器: 最低 Intel Core i5-12400 或同等性能处理器
- 内存: 至少 16GB RAM
- 存储空间: 至少 12GB 可用空间(运行环境约5GB,默认模型文件约4GB)
- 显卡(*非必须): 支持 CUDA 的显卡
- 网络: 首次使用需要网络连接以下载运行环境和模型,请确保您已接入互联网
安装步骤
下载程序
- 从 GitHub Releases 页面下载最新的整合包 或 可执行文件与requirements.txt
- 选择适合您系统的版本(Windows 64位)
解压/准备环境
- 如果下载的是整合包,直接解压到目标文件夹
- 如果下载的是可执行文件与requirements.txt,将它们放在同一文件夹中
首次启动
非整合包首次启动软件时,系统会:
- 初始化配置: 创建默认配置文件
- 安装环境: 安装必要的 Python 库(根据 requirements.txt 及 程序内置)
- 下载模型: 下载默认的 Qwen-TTS 模型
- 欢迎向导: 显示欢迎向导,引导您完成初始设置
为什么不把requirements.txt内的库写入到程序里面:
- 因为程序内置的库是经过测试和验证的,而requirements.txt内的库是根据用户的需求和环境而变化的(如用户需要特定版本的库)。
- 程序内置的库可以确保软件的正常运行,而requirements.txt内的库则可以根据用户的需求进行定制(如安装特定版本的库)。
基本使用
语音生成(模型 Qwen3-...-CustomVoice)
输入文本
- 在中央工作区的文本输入框中输入要转换的文本
- 您可以输入多行文本,系统会自动处理
选择模型
- 在左侧面板的「模型选择」中选择合适的模型
- 推荐使用「Qwen3-...-1.7B-CustomVoice」获得最佳效果(若您的设备性能有限请使用0.6B)
选择说话人
- 在左侧面板的「说话人选择」中选择合适的说话人
生成语音
- 点击「生成音频」按钮
- 等待系统处理完成(处理时间取决于文本长度和硬件性能)
预览和保存
- 点击「播放」按钮预览生成的语音
- 满意后,点击「保存」按钮保存为音频文件
语音设计(模型 Qwen3-...-CustomVoice)
1.输入声音描述 -例如:一个年轻的女性,听起来比较开心
2.输入文本
- 在文本输入框中输入要生成的文本
生成语音
- 点击「开始生成」按钮
- 等待系统处理完成(处理时间取决于文本长度和硬件性能)
预览和保存
- 点击「播放」按钮预览生成的语音
- 满意后,点击「保存」按钮保存为音频文件
语音克隆(模型 Qwen3-...-Base)
切换到语音克隆界面
- 点击顶部导航栏的「语音克隆」选项卡
上传参考音频
- 点击「浏览」按钮
- 选择一个包含清晰语音的音频文件(建议 5-10 秒或更长)
- 输入参考音频的文本(可选)
输入文本
- 在文本输入框中输入要转换的文本
生成克隆语音
- 点击「克隆」按钮
- 系统会生成模仿参考音频风格的语音(处理时间取决于文本长度和硬件性能)
预览和保存
- 生成完毕后程序会自动播放克隆语音
- 可以点击「播放」按钮再次预览生成的语音,也可以拖动进度条调整播放位置
- 满意后,点击「保存」按钮保存为音频文件(如果忘记保存也不用担心,程序会自动保存到默认路径/outputs)
音频浏览
切换到音频浏览界面
- 点击左侧导航栏的「音频浏览」选项卡
查看音频列表
- 所有生成的音频文件都会在列表中显示
播放音频
- 双击列表中的音频文件,即可播放
- 可以使用进度条调整播放位置
高级功能
语音预设
软件提供了多种语音预设,方便您快速应用特定的语音风格:
- 默认: 标准语音风格
- 甜美: 甜美可爱的语音风格
- 成熟: 成熟稳重的语音风格
- 专业: 专业播音的语音风格
- 亲切: 亲切自然的语音风格
- 激情: 富有激情的语音风格
自定义预设
您可以创建和保存自己的语音预设:
- 调整参数: 调整语音的各项参数到您满意的状态
- 保存预设: 点击「保存预设」按钮
- 命名预设: 为您的预设输入一个名称
- 应用预设: 在预设列表中选择您保存的预设
故障排除
常见问题
模型下载失败
- 原因: 网络连接问题或模型服务器暂时不可用
- 解决方法: 检查网络连接,稍后重试
生成语音失败
- 原因: 文本长度过长或模型加载失败
- 解决方法: 缩短文本长度,或重新加载模型
语音质量不佳
- 原因: 模型选择不当
- 解决方法: 尝试使用更高参数的模型(1.7B)
软件崩溃
- 原因: 系统性能/资源不足
- 解决方法: 尝试清理后台,重新启动软件;或者换一台电脑吧~
联系支持
如果您遇到无法解决的问题,可以通过以下方式联系支持:
- GitHub Issues: 在 GitHub 仓库中提交 Issue
性能优化
硬件优化
- 使用 GPU 加速: 推荐使用 NVIDIA 显卡
- 增加内存: 对于处理长文本,建议使用 16GB 或更多内存
- 使用 SSD: 将软件和模型安装在 SSD 上以提高加载速度(若没有SSD但是有大于32GB的内存也可以尝试安装在RamDisk中,用内存存储软件,但记得持久化存储处理(关机前将RamDisk内的文件复制到硬盘中))
文本处理优化
- 分段处理: 对于长文本,建议分多次处理以获得更好的效果
- 避免复杂格式: 尽量使用简单的文本格式,避免过多的特殊符号
- 合理使用标点: 适当使用标点符号以获得更自然的停顿
高级配置
常见问题解答
Q: 软件需要联网使用吗?
A: 首次使用需要联网下载环境/模型,后续使用可以离线运行。(注:整合包不含模型)
Q: 生成的语音可以用于商业用途吗?
A: 请参考 Qwen-TTS 模型的许可协议和相关法律法规。
Q: 软件支持哪些音频输出格式?
A: 支持 WAV 格式。
Q: 如何卸载软件?
A: 直接删除软件所在目录即可。
版权信息
Cyrene QwenTTS GUI
- 作者: Cyrene2008 UI由Cyrene2008设计
- 版本: v0.1.0
- 许可协议: GPLv3 + 附加声明(详见https://github.com/Cyrene2008/Cyrene-QwenTTS-GUI/blob/main/LICENSE)
- 项目地址: https://github.com/Cyrene2008/Cyrene-QwenTTS-GUI
本软件基于以下开源项目:
- Qwen-TTS: https://github.com/QwenLM/Qwen-TTS
- PySide6: https://wiki.qt.io/Qt_for_Python
- FluentUI: https://github.com/microsoft/fluentui
免责声明
- 本软件仅供个人学习和研究使用
- 请遵守相关法律法规,不要用于非法用途
- 对于使用本软件产生的任何后果,作者不承担责任
- 软件中供选择的语音模型可能存在一定的局限性,后续可能会添加允许用户自主加载其他模型的功能
贡献者
更新日志
2026/2/16 04:37
查看所有更新日志
66651-Add files via upload于
