Spark-TTS_开源的AI语音合成工具

Web前端开发网

fly63.com

首页资源工具文章教程栏目

Spark-TTS

GitHub:https://github.com/SparkAudio/Spark-TTS

网站描述:开源的AI语音合成工具

GitHub

Spark-TTS 是一个基于大语言模型（LLM）的高效高效文本到语音（TTS）系统，旨在提供高精度、自然的语音合成能力。以下是该仓库的核心信息：

核心特点

简洁高效：完全基于 Qwen2.5 构建，无需额外的生成模型（如流匹配模型），直接通过 LLM 预测的代码重构音频，简化流程并提高效率。

高质量语音克隆：支持零样本语音克隆，无需特定说话人的训练数据即可复制说话人的声音，适用于跨语言和语码转换场景表现出色。

双语支持：支持中英文双语，能在多语言环境下保持高自然度和准确性的语音合成。

可控语音生成：可通过调整性别、音调、语速等参数创建虚拟说话人。

安装与使用

克隆仓库并安装依赖

git clone https://github.com/SparkAudio/Spark-TTS.git
cd Spark-TTS
conda create -n sparktts -y python=3.12
conda activate sparktts
pip install -r requirements.txt

下载模型

# 通过 Python 下载
from huggingface_hub import snapshot_download
snapshot_download("SparkAudio/Spark-TTS-0.5B", local_dir="pretrained_models/Spark-TTS-0.5B")

或

# 通过 git 克隆
mkdir -p pretrained_models
git lfs install
git clone https://huggingface.co/SparkAudio/Spark-TTS-0.5B pretrained_models/Spark-TTS-0.5B

基本使用

# 运行示例脚本
cd example
bash infer.sh

# 或直接执行命令
python -m cli.inference \
    --text "需要合成的文本" \
    --device 0 \
    --save_dir "保存音频的路径" \
    --model_dir pretrained_models/Spark-TTS-0.5B \
    --prompt_text "提示音频的文本内容" \
    --prompt_speech_path "提示音频的路径"

Web UI 使用

python webui.py --device 0

Web 界面支持语音克隆（上传参考音频或直接录制）和语音创建功能。

技术架构

项目采用残差有限标量量化（Residual FSQ）技术，通过多个量化器层级处理语音特征，结合 LLM 实现高效的语音合成。代码结构清晰，主要包含模型模块（src/sparktts/models）、量化模块（src/sparktts/modules/fsq）、命令行工具（cli/）和 Web 界面。

仅供个人学习参考/导航指引使用，具体请以第三方网站说明为准，本站不提供任何专业建议。如果地址失效或描述有误，请联系站长反馈～感谢您的理解与支持！

链接: https://fly63.com/nav/4255