扫一扫分享
Spark-TTS 是一个基于大语言模型(LLM)的高效高效文本到语音(TTS)系统,旨在提供高精度、自然的语音合成能力。以下是该仓库的核心信息:
简洁高效:完全基于 Qwen2.5 构建,无需额外的生成模型(如流匹配模型),直接通过 LLM 预测的代码重构音频,简化流程并提高效率。
高质量语音克隆:支持零样本语音克隆,无需特定说话人的训练数据即可复制说话人的声音,适用于跨语言和语码转换场景表现出色。
双语支持:支持中英文双语,能在多语言环境下保持高自然度和准确性的语音合成。
可控语音生成:可通过调整性别、音调、语速等参数创建虚拟说话人。
克隆仓库并安装依赖
git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt
下载模型
# 通过 Python 下载
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")
或
# 通过 git 克隆
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B
基本使用
# 运行示例脚本
cd example
bash infer.sh
# 或直接执行命令
python -m cli.inference \
--text "需要合成的文本" \
--device 0 \
--save_dir "保存音频的路径" \
--model_dir pretrained_models/Spark-TTS-0.5B \
--prompt_text "提示音频的文本内容" \
--prompt_speech_path "提示音频的路径"
Web UI 使用
python webui.py --device 0
Web 界面支持语音克隆(上传参考音频或直接录制)和语音创建功能。
项目采用残差有限标量量化(Residual FSQ)技术,通过多个量化器层级处理语音特征,结合 LLM 实现高效的语音合成。代码结构清晰,主要包含模型模块(src/sparktts/models)、量化模块(src/sparktts/modules/fsq)、命令行工具(cli/)和 Web 界面。
仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!
手机预览