如何使用 GPT-SoVITS 训练专属语音模型#

概述#

本文介绍如何在个人电脑上，使用自己的声音数据训练一个专属的文本转语音（Text-to-Speech, TTS）模型。训练完成后，你可以通过 API 调用这个模型，让 AI Agent 使用你的声音进行对话。

核心技术栈：

模型框架：GPT-SoVITS v4（专为中文少样本语音克隆设计）
训练方式：零样本克隆（5 秒音频）+ 少样本微调（1 分钟以上）
界面方式：WebUI 可视化界面（零代码）
最低显存要求：6GB VRAM

GPT-SoVITS 核心特性：

特性	说明
零样本 TTS	输入 5 秒音频样本，即可体验即时语音转换
少样本 TTS	仅需 1 分钟训练数据即可微调，提升音色相似度和真实感
跨语言支持	支持英语、日语、韩语、粤语、中文
WebUI 工具	集成伴奏分离、自动分割训练集、中文 ASR、文本标注

版本选择建议：

v4（推荐）：修复了 v3 的金属伪影问题，原生输出 48k 音频，音色相似度更高
v2Pro：硬件要求和速度与 v2 相当，性能超越 v4
v3：直接使用时音色相似度已显著提升

硬件准备与系统选择#

设备对比#

配置项	i7-8700 + GTX1080 (Windows)	8845HS (Ubuntu)
GPU	GTX 1080 8GB 独立显卡	集成显卡（无独立 GPU）
显存	8GB	共享内存
CPU	6 核 12 线程	8 核 16 线程
训练能力	支持	不支持

选择：i7-8700 + GTX1080 的 Windows 主机

原因： 训练语音模型需要独立 GPU 和足够显存。8845HS 没有独立 GPU，无法有效完成训练任务。GTX 1080 的 8GB 显存可以满足 GPT-SoVITS 的训练需求。

系统方案#

推荐 Windows 独立包（推荐）或 WSL2 Ubuntu 方案：

方案	适用场景	优点	缺点
Windows 独立包	Windows 用户首选	下载即用，双击启动	需要手动下载
WSL2 Ubuntu	熟悉 Linux 用户	可用完整功能	配置较复杂

环境搭建#

方案一：Windows 独立包（推荐，零代码）#

这是最简单的方式，无需配置任何环境。

下载独立包#

访问 Hugging Face 下载页面：
- Hugging Face 下载地址
- 国内用户建议从语雀地址下载
下载完成后，使用 7-Zip 或 Bandizip 解压到任意目录

解压后目录结构：

PRTCL // PLAINTEXT

1
GPT-SoVITS-windows-package/
2
├── go-webui.bat          # 双击启动 WebUI
3
├── go-webui-v1.bat       # 使用 v1 版本
4
├── go-webui-v2.bat       # 使用 v2 版本
5
├── ...

安装 FFmpeg（必需）：
- 从 Hugging Face 下载 ffmpeg.exe
- 从 Hugging Face 下载 ffprobe.exe
- 将这两个文件放入 GPT-SoVITS 根目录
双击 go-webui.bat，等待自动打开浏览器

启动 WebUI#

PRTCL // PLAINTEXT

1
# 如果双击无反应，可以右键 "go-webui.bat" -> 以管理员身份运行
2

3
# 或者使用 PowerShell
4
.\go-webui.bat

看到类似输出即表示启动成功：

PRTCL // PLAINTEXT

1
Running on local URL: http://127.0.0.1:7860

方案二：Linux/macOS 手动安装#

安装 Conda#

PRTCL // BASH

1
# 下载 Miniconda
2
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
3
bash Miniconda3-latest-Linux-x86_64.sh
4

5
# 重启终端使生效

创建环境并安装#

PRTCL // BASH

1
# 创建 Python 3.10 环境
2
conda create -n GPTSoVits python=3.10
3
conda activate GPTSoVits
4

5
# 安装依赖（Linux）
6
bash install.sh --device CU126 --source HF
7
# 或使用 ModelScope 源（国内更快）
8
bash install.sh --device CU126 --source ModelScope

参数说明：

参数	选项	说明
`--device`	`CU126` / `CU128` / `ROCM` / `CPU` / `MPS`	选择计算设备
`--source`	`HF` / `HF-Mirror` / `ModelScope`	下载源
`--download-uvr5`	（可选）	是否下载 UVR5 模型

安装 FFmpeg#

Ubuntu/Debian：

PRTCL // BASH

1
sudo apt install ffmpeg
2
sudo apt install libsox-dev

macOS：

PRTCL // BASH

1
brew install ffmpeg

下载预训练模型#

GPT-SoVITS 需要以下预训练模型：

模型	用途	下载地址
GPT-SoVITS Models	核心模型	Hugging Face
G2PWModel	中文 TTS 专用	Hugging Face
UVR5 Weights	伴奏分离 / 去混响	Hugging Face
Damo ASR Model	中文语音识别	ModelScope
Faster Whisper	英文 / 日文 ASR	Hugging Face

模型放置位置：

PRTCL // PLAINTEXT

1
GPT-SoVITS/
2
├── GPT_SoVITS/
3
│   └── pretrained_models/     # 放入主模型
4
│   └── text/
5
│       └── G2PWModel/        # 放入中文 G2PW 模型
6
├── tools/
7
│   ├── uvr5/
8
│   │   └── uvr5_weights/     # 放入 UVR5 模型
9
│   └── asr/
10
│       └── models/           # 放入 ASR 模型

启动 WebUI#

PRTCL // BASH

1
# 进入项目目录
2
cd GPT-SoVITS
3

4
# 启动 WebUI（默认 v4）
5
python webui.py
6

7
# 或指定语言
8
python webui.py zh  # 中文界面
9
python webui.py en  # 英文界面

声音数据采集#

数据采集要求#

项目	最低要求	推荐	说明
时长	5 秒（零样本）	10-30 分钟（少样本）	越多效果越好
格式	WAV / MP3	WAV	推荐 16bit
采样率	16000Hz+	16000Hz 或 44100Hz	均可
环境	安静	安静无回音	降噪处理更佳
内容	任意内容	多样化句子	涵盖不同音素

零样本 vs 少样本对比#

模式	所需数据	训练时间	音色相似度	适用场景
零样本	5 秒音频	无需训练	基础可用	快速测试
少样本	1-30 分钟	5-30 分钟	高	生产使用

录音样例文本（建议 10-30 分钟）#

PRTCL // PLAINTEXT

1
你好，我叫张三，今天天气真不错。
2
一二三四五六七八九十。
3
今天是 2024 年 3 月 15 日，星期三。
4
北京是中国的首都，上海是金融中心。
5
人工智能技术正在改变世界。
6
机器学习是人工智能的核心分支。
7
请帮我查询明天的天气情况。
8
很高兴认识你，我们做朋友吧。
9
床前明月光，疑是地上霜。举头望明月，低头思故乡。
10
人工智能助手可以帮你完成很多任务。

覆盖要求：

中文全拼音覆盖（b p m f d t n l g k h j q x zh ch sh r z c s y w）
数字：0-9
日期：年、月、日、星期
常用汉字高频词汇

录音技巧#

保持一致的距离：嘴到麦克风 15-30cm
语速均匀：不要忽快忽慢
情感稳定：保持自然中性语调
内容多样：涵盖不同词汇和句式
环境安静：关闭门窗、空调、电风扇
多次录制：每天录 5-10 分钟，分几天完成效果更好

数据预处理#

GPT-SoVITS 提供完整的 WebUI 工具，无需代码即可完成数据预处理。

步骤 1：进入 WebUI#

PRTCL // BASH

1
# Windows 独立包：双击 go-webui.bat
2
# 其他：运行 python webui.py

浏览器自动打开 WebUI 界面。

步骤 2：音频切片（自动分割长音频）#

在 WebUI 中找到 「3-音频切片」 标签页：

PRTCL // PLAINTEXT

1
操作步骤：
2
1. 输入原始音频路径（或文件夹路径）
3
2. 设置输出目录
4
3. 调整参数：
5
   - 阈值（threshold）：音量阈值，建议 -30 到 -40
6
   - 最小长度（min_length）：每个切片最小时长，建议 3-5 秒
7
   - 最小间隔（min_interval）：相邻切片最小间隔，建议 0.1-0.3 秒
8
4. 点击「开始处理」

参数说明：

参数	建议值	说明
阈值	-30 到 -40 dB	低于此音量的部分被视为静音
最小长度	3-5 秒	过短会影响训练效果
最小间隔	0.1-0.3 秒	静音间隔超过此值则分割

步骤 3：音频降噪（可选）#

如录音环境不够安静，可使用降噪功能：

进入 「UVR5」 标签页
选择模型：HP5_only vocal_detect
上传音频或选择文件夹
点击「转换」

步骤 4：ASR 自动标注（生成文本）#

进入 「1-训练」 标签页，找到 「ASR」 配置区域：

PRTCL // PLAINTEXT

1
操作步骤：
2
1. 选择语言：中文 -> FunASR；英文 / 日文 -> Faster Whisper
3
2. 输入处理后的音频目录路径
4
3. 设置输出目录
5
4. 点击「开始运行」

ASR 工具对比：

工具	支持语言	准确度	速度
FunASR	中文	高	中
Faster Whisper	英文 / 日文等	高	慢（GPU 快）

步骤 5：人工校正标注#

ASR 自动识别可能存在误差，需要人工校正：

ASR 完成后，在输出目录会生成 .list 文件
打开文件，每行格式为：
PRTCL // PLAINTEXT
```
1
音频路径|说话人|语言|文本
```
逐一检查文本是否正确，修正错误内容

示例：

PRTCL // PLAINTEXT

1
D:\GPT-SoVITS\dataset\processed\audio_001.wav|myvoice|zh|你好，我叫张三，今天天气真不错。
2
D:\GPT-SoVITS\dataset\processed\audio_002.wav|myvoice|zh|一二三四五六七八九十。

注意：

路径建议使用绝对路径
语言代码：zh= 中文，en= 英文，ja= 日文，ko= 韩文，yue= 粤语
文本中不要包含特殊字符（| 除外）

模型训练（WebUI 可视化）#

进入训练界面#

在 WebUI 中切换到 「1-GPT-SoVITS-TTS」 标签页，然后选择 「1A-微调」 子标签页。

配置训练参数#

基础配置#

PRTCL // PLAINTEXT

1
# 训练数据目录
2
训练数据集路径：dataset/processed/
3

4
# 实验 / 模型名称（自定义）
5
实验名称：my-voice-v4
6

7
# 音频设置
8
采样率：16000

SoVITS 训练参数#

参数	GTX 1080 (8GB) 建议值	说明
batch_size	4-6	显存不足时降低
grad_accumulation	2	梯度累积步数
epochs	50-100	训练轮数
learning_rate	0.0001	学习率

GPT 训练参数#

参数	GTX 1080 (8GB) 建议值	说明
batch_size	2-4	GPT 模型较大，适当降低
grad_accumulation	2-4	梯度累积步数
epochs	50-100	训练轮数
learning_rate	0.00005	GPT 学习率较低

开始训练#

PRTCL // PLAINTEXT

1
操作步骤：
2
1. 确认参数配置无误
3
2. 点击「开始训练 SoVITS」按钮
4
3. 等待 SoVITS 训练完成（约 10-20 分钟）
5
4. SoVITS 训练完成后，点击「开始训练 GPT」按钮
6
5. 等待 GPT 训练完成（约 10-30 分钟）
7
6. 训练完成后，模型自动保存在输出目录

训练输出#

训练完成后，模型保存在：

PRTCL // PLAINTEXT

1
GPT-SoVITS/
2
├── output/
3
│   └── my-voice-v4/
4
│       ├── SoVITS/
5
│       │   └── s1v4_e100_*.pth    # SoVITS 模型
6
│       └── GPT/
7
│           └── s2v4_e100_*.pth   # GPT 模型

常见训练问题#

问题	原因	解决方案
CUDA OOM	显存不足	降低 batch_size 到 2
训练 loss 不下降	学习率不合适	降低学习率
音色不像本人	数据量不足	增加 10 分钟以上数据
音频有杂音	录音环境问题	降噪处理或重新录音

推理使用（WebUI 可视化）#

进入推理界面#

在 WebUI 中切换到 「1-GPT-SoVITS-TTS」 标签页，然后选择 「1C-推理」 子标签页。

加载模型#

PRTCL // PLAINTEXT

1
操作步骤：
2
1. 在「模型路径」区域：
3
   - SoVITS 模型：选择 output/my-voice-v4/SoVITS/*.pth
4
   - GPT 模型：选择 output/my-voice-v4/GPT/*.pth
5
2. 点击「加载模型」按钮
6
3. 等待模型加载完成

生成语音#

PRTCL // PLAINTEXT

1
操作步骤：
2
1. 上传参考音频：
3
   - 点击「上传参考音频」按钮
4
   - 选择一个包含你声音的音频文件（3-10 秒最佳）
5
2. 输入要生成的文本：
6
   你好，这是使用我的声音生成的语音。
7
3. 调整参数：
8
   - top_k：5-15（控制生成多样性）
9
   - top_p：0.8-1.0
10
   - temperature：0.8-1.2（控制随机性）
11
   - 语速：1.0（标准）
12
4. 点击「开始生成」按钮
13
5. 等待生成完成，播放或下载音频

参数说明#

参数	建议值	说明
top_k	5-15	考虑前 k 个最可能的 token，越小越保守
top_p	0.8-1.0	核采样，越小越保守
temperature	0.8-1.2	温度参数，越高越随机
语速	0.8-1.2	语速倍率，1.0 为标准

API 服务部署#

虽然 GPT-SoVITS 主要通过 WebUI 使用，但你可以将其部署为 API 服务供 AI Agent 调用。

方式一：使用 VALL-E API（非官方）#

GPT-SoVITS 本身没有官方 API，但你可以使用类似的 TTS API 框架。以下提供一个基于 Flask 的简易 API 部署方案。

部署简易 API 服务#

创建 api_server.py：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""
3
GPT-SoVITS TTS API 服务
4
将语音模型部署为 HTTP API，供 AI Agent 调用
5

6
注意：此脚本需要 GPT-SoVITS 的推理能力支持
7
完整实现需要参考 GPT-SoVITS 源码进行适配
8
"""
9

10
import io
11
import base64
12
import tempfile
13
import torch
14
import soundfile as sf
15
from flask import Flask, request, send_file, jsonify
16
from pathlib import Path
17

18
# ========== 配置区 ==========
19
HOST = "0.0.0.0"
20
PORT = 5002
21
SAMPLE_RATE = 24000  # GPT-SoVITS 输出采样率
22
# ============================
23

24
app = Flask(__name__)
25

26
# 导入 GPT-SoVITS 推理模块
27
try:
28
    import sys
29
    sys.path.insert(0, ".")
30
    from GPT_SoVITS.inference_webui import GPTSoVITS
31
    MODEL_LOADED = True
32
except Exception as e:
33
    print(f"警告：无法加载 GPT-SoVITS 推理模块: {e}")
34
    MODEL_LOADED = False
35

36
gpt_sovits = None
37

38
def init_model():
39
    """初始化模型"""
40
    global gpt_sovits
41
    if not MODEL_LOADED:
42
        return
43

44
    print("加载 GPT-SoVITS 模型...")
45
    try:
46
        # 加载训练好的模型
47
        gpt_sovits = GPTSoVITS(
48
            device="cuda" if torch.cuda.is_available() else "cpu"
49
        )
50
        print("模型加载完成")
51
    except Exception as e:
52
        print(f"模型加载失败: {e}")
53

54
@app.route("/health", methods=["GET"])
55
def health_check():
56
    """健康检查"""
57
    return jsonify({
58
        "status": "ok" if MODEL_LOADED else "model_not_loaded",
59
        "model_loaded": MODEL_LOADED,
60
        "cuda_available": torch.cuda.is_available()
61
    })
62

63
@app.route("/tts", methods=["POST"])
64
def text_to_speech():
65
    """
66
    文本转语音接口
67

68
    请求参数 (JSON):
69
        text: str - 要转换的文本
70
        reference_audio: str - 参考音频路径（可选）
71
    """
72
    try:
73
        if not MODEL_LOADED or gpt_sovits is None:
74
            return jsonify({"error": "模型未加载"}), 500
75

76
        data = request.get_json()
77
        if not data or "text" not in data:
78
            return jsonify({"error": "缺少 text 参数"}), 400
79

80
        text = data["text"]
81
        reference_audio = data.get("reference_audio")
82

83
        print(f"生成语音: {text[:50]}...")
84

85
        # 生成语音
86
        # 注意：具体 API 调用需要参考 GPT-SoVITS 源码
87
        # audio = gpt_sovits.generate(
88
        #     text=text,
89
        #     reference_audio=reference_audio
90
        # )
91

92
        # 临时返回错误，实际使用时需要正确实现
93
        return jsonify({"error": "请使用 WebUI 进行推理"}), 501
94

95
    except Exception as e:
96
        import traceback
97
        traceback.print_exc()
98
        return jsonify({"error": str(e)}), 500
99

100
@app.route("/tts_base64", methods=["POST"])
101
def text_to_speech_base64():
102
    """返回 Base64 编码的音频"""
103
    try:
104
        data = request.get_json()
105
        if not data or "text" not in data:
106
            return jsonify({"error": "缺少 text 参数"}), 400
107

108
        text = data["text"]
109

110
        # 实际使用时需要调用模型生成
111
        # 这里返回示例结构
112
        return jsonify({
113
            "error": "请使用 WebUI 进行推理"
114
        }), 501
115

116
    except Exception as e:
117
        return jsonify({"error": str(e)}), 500
118

119
def main():
120
    """启动服务"""
121
    init_model()
122

123
    print(f"\n{'='*50}")
124
    print(f"GPT-SoVITS API 服务")
125
    print(f"注意：建议直接使用 WebUI 进行推理")
126
    print(f"地址: http://{HOST}:{PORT}")
127
    print(f"{'='*50}\n")
128

129
    app.run(host=HOST, port=PORT, debug=False, threaded=True)
130

131
if __name__ == "__main__":
132
    main()

方式二：启动 GPT-SoVITS 内置 API 服务#

GPT-SoVITS v4 内置了 API 服务功能，可以直接启用：

PRTCL // BASH

1
# 在 GPT-SoVITS 目录运行
2
python GPT_SoVITS/api.py

或使用 WebUI 内置的 API 模式：

PRTCL // BASH

1
# 启动时添加 --api 参数
2
python webui.py --api

启动后 API 地址为 http://localhost:9876

可用接口：

接口	方法	参数	说明
`/tts`	POST	`text`, `ref_audio_path`, `prompt_text`, `prompt_lang`, `text_lang`	基础 TTS
`/tts_stream`	POST	同上	流式输出
`/cut_dialogue`	POST	音频文件	音频切片

调用示例：

PRTCL // PYTHON

1
import requests
2
import io
3
import soundfile as sf
4

5
# 先调用 TTS 接口
6
response = requests.post(
7
    "http://localhost:9876/tts",
8
    json={
9
        "text": "你好，这是使用我的声音生成的语音。",
10
        "ref_audio_path": "dataset/processed/ref.wav",
11
        "prompt_text": "你好，这是参考音频。",
12
        "prompt_lang": "zh",
13
        "text_lang": "zh"
14
    }
15
)
16

17
# 保存音频
18
if response.status_code == 200:
19
    audio_data = response.content
20
    # 音频为 24kHz WAV 格式
21
    with open("output.wav", "wb") as f:
22
        f.write(audio_data)

方式三：对接现有 TTS API#

如果需要 API 功能，建议同时安装一个支持 API 的 TTS 框架作为补充：

框架	特点	API 支持
Coqui TTS	开源、支持模型微调	良好
ESPnet	学术框架、功能全	需配置
VITS	轻量、快速	需额外开发

API 调用示例#

虽然 GPT-SoVITS 主要通过 WebUI 使用，但你可以通过以下方式间接调用：

方式 1：使用命令行推理

PRTCL // BASH

1
# 批量推理（使用项目自带的命令行工具）
2
python GPT_SoVITS/inference_main.py \
3
  --model_path output/my-voice-v4/GPT/s2v4_e100_*.pth \
4
  --sovits_path output/my-voice-v4/SoVITS/s1v4_e100_*.pth \
5
  --ref_audio dataset/processed/ref.wav \
6
  --text "你好，这是测试语音。"

方式 2：通过外部程序调用 WebUI

你可以编写脚本控制浏览器或调用 WebUI 的内部 API：

PRTCL // PYTHON

1
import requests
2

3
# 调用本地 WebUI（如果 WebUI 开启了 API 功能）
4
response = requests.post(
5
    "http://localhost:7860/api/v1/tts",
6
    json={
7
        "text": "你好，这是测试语音",
8
        "reference_audio": "path/to/ref.wav"
9
    }
10
)

AI Agent 集成#

架构概述#

PRTCL // PLAINTEXT

1
┌─────────────┐     HTTP      ┌─────────────┐     音频流     ┌─────────────┐
2
│  AI Agent   │ ────────────> │   TTS API   │ ─────────────> │   用户播放   │
3
│  ( 任意平台 )  │   JSON 请求   │  (GPT-SoVITS)│               │             │
4
└─────────────┘               └─────────────┘               └─────────────┘

集成方案对比#

方案	复杂度	效果	推荐场景
WebUI 手动推理	最低	最佳	个人使用、快速测试
内置 API 服务	低	最佳	推荐日常使用
API 转发服务	中	取决于模型	需要自动化的场景
直接集成模型	高	可优化	深度定制开发

方案一：使用内置 API（推荐）#

GPT-SoVITS 提供内置 API 服务，启动后其他 Agent 可直接调用：

PRTCL // BASH

1
# 启动 API 服务（默认端口 9876）
2
python GPT_SoVITS/api.py

服务启动后，通过 HTTP 请求即可生成语音：

PRTCL // PYTHON

1
import requests
2
import base64
3

4
def tts_generate(text, ref_audio, api_url="http://localhost:9876"):
5
    """调用 GPT-SoVITS API 生成语音"""
6
    response = requests.post(
7
        f"{api_url}/tts",
8
        json={
9
            "text": text,
10
            "ref_audio_path": ref_audio,
11
            "prompt_text": "你好。",  # 参考音频对应的文本
12
            "prompt_lang": "zh",
13
            "text_lang": "zh"
14
        }
15
    )
16
    return response.content  # 返回 WAV 音频数据
17

18
# AI Agent 中调用
19
audio_bytes = tts_generate(
20
    text="今天天气真不错，我们出去散步吧。",
21
    ref_audio="dataset/processed/ref.wav"
22
)

方案二：完整 AI Agent 集成示例#

以下是一个完整的 AI Agent 集成方案，支持流式输出和实时播放：

启动 TTS API 服务#

创建并运行 start_tts_api.py：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""启动 GPT-SoVITS TTS API 服务"""
3
import subprocess
4
import sys
5
import os
6

7
# 设置工作目录
8
os.chdir(os.path.dirname(os.path.abspath(__file__)))
9

10
# 启动 API 服务
11
print("启动 GPT-SoVITS API 服务...")
12
print("API 地址: http://localhost:9876")
13
print("按 Ctrl+C 停止服务\n")
14

15
subprocess.run([
16
    sys.executable, "GPT_SoVITS/api.py"
17
])

TTS 客户端封装#

创建 tts_client.py，供 AI Agent 调用：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""GPT-SoVITS TTS 客户端封装"""
3
import requests
4
import base64
5
import io
6
import soundfile as sf
7
from typing import Optional
8

9
class GPTSoVITSClient:
10
    def __init__(self, api_url: str = "http://localhost:9876"):
11
        self.api_url = api_url
12
        self.ref_audio = None
13
        self.prompt_text = None
14

15
    def set_reference(self, ref_audio_path: str, prompt_text: str):
16
        """设置参考音频和对应文本"""
17
        self.ref_audio = ref_audio_path
18
        self.prompt_text = prompt_text
19

20
    def generate(self, text: str, language: str = "zh") -> bytes:
21
        """生成语音"""
22
        if not self.ref_audio:
23
            raise ValueError("请先设置参考音频 (set_reference)")
24

25
        response = requests.post(
26
            f"{self.api_url}/tts",
27
            json={
28
                "text": text,
29
                "ref_audio_path": self.ref_audio,
30
                "prompt_text": self.prompt_text,
31
                "prompt_lang": language,
32
                "text_lang": language
33
            },
34
            timeout=60
35
        )
36

37
        if response.status_code != 200:
38
            raise Exception(f"TTS 生成失败: {response.text}")
39

40
        return response.content
41

42
    def generate_to_file(self, text: str, output_path: str, language: str = "zh"):
43
        """生成语音并保存到文件"""
44
        audio_data = self.generate(text, language)
45
        with open(output_path, "wb") as f:
46
            f.write(audio_data)
47
        return output_path
48

49

50
# ========== 独立使用示例 ==========
51
if __name__ == "__main__":
52
    client = GPTSoVITSClient()
53

54
    # 设置参考音频
55
    client.set_reference(
56
        ref_audio_path="dataset/processed/ref.wav",
57
        prompt_text="你好，这是参考音频。"
58
    )
59

60
    # 生成语音
61
    print("生成语音...")
62
    audio = client.generate("你好，今天我们来进行一个简单的对话。")
63
    print(f"生成成功，音频大小: {len(audio)} bytes")
64

65
    # 保存到文件
66
    client.generate_to_file(
67
        "今天天气真不错。",
68
        "output.wav"
69
    )
70
    print("已保存到 output.wav")

AI Agent 集成#

在 AI Agent 中集成 TTS 功能：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""AI Agent + GPT-SoVITS 集成示例"""
3
from tts_client import GPTSoVITSClient
4
import asyncio
5

6
class VoiceAgent:
7
    def __init__(self):
8
        self.tts = GPTSoVITSClient()
9
        # 初始化时设置声音
10
        self.tts.set_reference(
11
            ref_audio_path="dataset/processed/ref.wav",
12
            prompt_text="你好，我是你的语音助手。"
13
        )
14

15
    def chat(self, user_input: str) -> str:
16
        """处理用户输入并返回文本回复"""
17
        # 这里接入你的 AI 对话逻辑
18
        # 例如：Claude API、ChatGPT、本地模型等
19
        ai_response = f"你说了: {user_input}，这是 AI 的回复。"
20
        return ai_response
21

22
    def voice_chat(self, user_input: str) -> bytes:
23
        """语音对话：输入文本，返回语音"""
24
        # 1. AI 生成回复
25
        response_text = self.chat(user_input)
26

27
        # 2. TTS 转换
28
        audio = self.tts.generate(response_text)
29

30
        return audio
31

32

33
# ========== 使用示例 ==========
34
if __name__ == "__main__":
35
    agent = VoiceAgent()
36

37
    # 文字对话
38
    response = agent.chat("今天天气怎么样？")
39
    print(f"AI: {response}")
40

41
    # 语音对话
42
    audio = agent.voice_chat("今天天气怎么样？")
43
    print(f"语音已生成，音频大小: {len(audio)} bytes")

支持流式输出的 Agent#

对于需要流式语音生成的场景：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""流式语音生成 Agent"""
3
import requests
4
import io
5
import soundfile as sf
6
from tts_client import GPTSoVITSClient
7

8
class StreamingVoiceAgent:
9
    def __init__(self):
10
        self.tts = GPTSoVITSClient()
11
        self.tts.set_reference(
12
            ref_audio_path="dataset/processed/ref.wav",
13
            prompt_text="你好。"
14
        )
15

16
    def stream_voice(self, text_segments: list):
17
        """流式生成语音（分段处理）"""
18
        for segment in text_segments:
19
            print(f"处理: {segment}")
20
            audio = self.tts.generate(segment)
21
            yield audio
22
            # 此处可添加实时播放逻辑
23

24
# 使用方式
25
agent = StreamingVoiceAgent()
26

27
# 分段处理长文本
28
long_text = "今天天气真不错。我们出去散步吧。首先去公园，然后去超市买点东西。"
29
segments = long_text.split("。")  # 按句子分割
30

31
for i, audio_chunk in enumerate(agent.stream_voice(segments)):
32
    print(f"第 {i+1} 段音频生成完成")
33
    # 可以实时播放或保存

方案三：WebSocket 实时语音（高级）#

如需实现实时语音交互，可使用 WebSocket 方案：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""WebSocket TTS 服务（需要额外配置）"""
3
# 注意：GPT-SoVITS 原生不支持 WebSocket
4
# 如需此功能，可通过以下方式实现：
5

6
# 使用 Flask-SocketIO 或 FastAPI WebSocket
7
# 在前端使用 Audio API 实时播放
8

9
# 示例架构：
10
# 前端 --WebSocket--> Agent Server --HTTP--> GPT-SoVITS API ---> 音频流

常用 AI Agent 平台集成#

对接 Claude / ChatGPT#

PRTCL // PYTHON

1
import openai  # 或 anthropic
2

3
def ai_agent_voice(user_text, voice_client):
4
    """调用大模型后用 TTS 生成语音"""
5

6
    # 1. 调用大模型获取回复
7
    response = openai.ChatCompletion.create(
8
        model="gpt-4",
9
        messages=[{"role": "user", "content": user_text}]
10
    )
11
    reply = response.choices[0].message.content
12

13
    # 2. 调用 TTS 生成语音
14
    audio = voice_client.generate(reply)
15

16
    return audio, reply

对接本地 RAG 知识库#

PRTCL // PYTHON

1
def rag_voice_agent(user_query, knowledge_base, voice_client):
2
    """基于知识库的语音问答"""
3

4
    # 1. 知识库检索
5
    context = knowledge_base.search(user_query)
6

7
    # 2. 构建提示
8
    prompt = f"基于以下信息回答：\n{context}\n\n 问题：{user_query}"
9

10
    # 3. 调用大模型
11
    response = llm.generate(prompt)
12

13
    # 4. TTS 生成
14
    audio = voice_client.generate(response)
15

16
    return audio, response

常见集成问题#

问题	原因	解决方案
API 连接失败	服务未启动	确认 `python GPT_SoVITS/api.py` 已运行
生成超时	文本过长	减少单次生成字数或提高 timeout
音色不一致	参考音频不匹配	确保 ref_audio 与训练数据一致
音频播放延迟	网络 / 生成速度	使用流式输出或预生成部分内容

文件监听方案#

创建一个简单的文件监听脚本 watch_and_speak.py：

PRTCL // PYTHON

1
#!/usr/bin/env python3
2
"""
3
文件监听 TTS 方案
4
监听指定文件，当文件内容变化时自动生成语音并播放
5

6
适用于：
7
- AI Agent 输出文本后自动朗读
8
- 无人值守的语音播报场景
9
"""
10

11
import time
12
import os
13
import subprocess
14
from pathlib import Path
15

16
# ========== 配置区 ==========
17
# 监听的文件路径（AI Agent 向此文件写入文本）
18
WATCH_FILE = "agent_output.txt"
19

20
# 参考音频路径
21
REFERENCE_AUDIO = "dataset/processed/ref.wav"
22

23
# WebUI 是否运行
24
WEBUI_URL = "http://localhost:7860"
25

26
# 检查间隔（秒）
27
CHECK_INTERVAL = 1.0
28
# ============================
29

30
def get_last_text():
31
    """读取文件内容"""
32
    try:
33
        with open(WATCH_FILE, "r", encoding="utf-8") as f:
34
            return f.read().strip()
35
    except:
36
        return ""
37

38
def generate_speech(text):
39
    """生成语音"""
40
    if not text:
41
        return
42

43
    print(f"生成语音: {text[:50]}...")
44

45
    # 方式 1：调用 WebUI API（如可用）
46
    try:
47
        import requests
48
        response = requests.post(
49
            f"{WEBUI_URL}/api/v1/tts",
50
            json={
51
                "text": text,
52
                "reference_audio": REFERENCE_AUDIO
53
            },
54
            timeout=30
55
        )
56
        if response.status_code == 200:
57
            print("生成成功")
58
            return
59
    except:
60
        pass
61

62
    # 方式 2：打开 WebUI 手动处理
63
    print("请在 WebUI 中手动生成语音")
64
    print(f"文本: {text}")
65

66
def play_audio():
67
    """播放音频"""
68
    # 查找最新生成的音频文件
69
    output_dir = Path("output/audio")
70
    if not output_dir.exists():
71
        return
72

73
    audio_files = list(output_dir.glob("*.wav"))
74
    if not audio_files:
75
        return
76

77
    latest = max(audio_files, key=lambda p: p.stat().st_mtime)
78

79
    # 播放
80
    try:
81
        # Windows
82
        subprocess.run(["start", str(latest)], shell=True)
83
    except:
84
        try:
85
            # Linux
86
            subprocess.run(["aplay", str(latest)])
87
        except:
88
            print(f"请手动播放: {latest}")
89

90
def main():
91
    """主函数"""
92
    print(f"监听文件: {WATCH_FILE}")
93
    print(f"检查间隔: {CHECK_INTERVAL} 秒")
94
    print("按 Ctrl+C 退出\n")
95

96
    last_content = ""
97

98
    while True:
99
        current_content = get_last_text()
100

101
        if current_content and current_content != last_content:
102
            print(f"\n 检测到新内容: {current_content[:50]}...")
103
            generate_speech(current_content)
104
            last_content = current_content
105

106
        time.sleep(CHECK_INTERVAL)
107

108
if __name__ == "__main__":
109
    main()

命令行工具参考#

GPT-SoVITS 提供命令行工具，适合高级用户或批量处理。

音频切片#

PRTCL // BASH

1
python audio_slicer.py \
2
    --input_path "path/to/audio.wav" \
3
    --output_root "dataset/processed" \
4
    --threshold -40 \
5
    --min_length 3 \
6
    --min_interval 0.2 \
7
    --hop_size 128

参数说明：

参数	说明	建议值
`--input_path`	输入音频路径	-
`--output_root`	输出目录	-
`--threshold`	音量阈值 (dB)	-30 到 -40
`--min_length`	最小切片时长 ( 秒 )	3-5
`--min_interval`	最小间隔 ( 秒 )	0.1-0.3
`--hop_size`	音量计算步长	128

中文 ASR#

PRTCL // BASH

1
python tools/asr/funasr_asr.py \
2
    -i "dataset/processed" \
3
    -o "dataset/asr_output"

英文 / 日文 ASR（Faster Whisper）#

PRTCL // BASH

1
python tools/asr/fasterwhisper_asr.py \
2
    -i "dataset/processed" \
3
    -o "dataset/asr_output" \
4
    -l "en" \
5
    -p "fp16"

参数说明：

参数	说明	选项
`-i`	输入目录	-
`-o`	输出目录	-
`-l`	语言	`en`, `ja`, `ko`, `zh`
`-p`	精度	`fp16` (GPU), `fp32` (CPU)

UVR5 人声分离#

PRTCL // BASH

1
python tools/uvr5/webui.py "cuda" "true" 8888

然后在浏览器中打开 http://localhost:8888 进行操作。

常见问题#

Q1: 显存不足 (CUDA OOM)#

症状： RuntimeError: CUDA out of memory

解决方案：

WebUI 中降低 batch_size：
- SoVITS: 4 → 2
- GPT: 2 → 1
启用半精度（WebUI 中通常有开关）
关闭其他占用显存的程序

Q2: 训练后音色不像本人#

原因	解决方案
数据量太少	增加到 10-30 分钟
录音环境噪音	降噪处理或重新录音
音频格式不对	转换为 16kHz WAV
训练轮数不够	增加 epochs 到 100+
参考音频质量差	使用清晰、无噪音的音频

Q3: 音频有杂音或失真#

可能原因及解决方案：

录音环境问题：在安静环境重新录音
降噪过度：避免多次降噪
采样率不匹配：确保所有音频为 16kHz

Q4: WebUI 无法打开#

排查步骤：

检查是否端口被占用：
PRTCL // BASH
Terminal window
```
1
netstat -ano | findstr "7860"
```

重新启动：

PRTCL // BASH

1
# 关闭所有 python 进程
2
taskkill /f /im python.exe
3

4
# 重新启动
5
.\go-webui.bat

检查依赖：
PRTCL // BASH
Terminal window
```
1
pip install -r requirements.txt
```

Q5: 中文发音不准确#

解决方案：

确保使用 v4 版本（中文支持最好）
检查标注文件 .list 中的文本是否正确
确保 G2PWModel 已正确安装
尝试使用拼音输入（高级用户）

Q6: 推理速度太慢#

优化建议：

方法	效果	说明
使用 GPU	显著加速	RTX 4090 RTF 可达 0.014
降低文本长度	加速	减少单次生成字数
调整参数	略有加速	降低 top_k 值

Q7: 模型文件太大#

v4 版本的模型文件较大属于正常现象。如需减小体积：

只保存最终模型（删除 checkpoints）
使用模型压缩工具（可能影响质量）

总结#

完成本教程后，你将拥有：

✅ 专属语音模型（基于你的声音）
✅ WebUI 可视化训练和推理界面
✅ 可手动或半自动生成语音

GPT-SoVITS 与其他方案对比：

特性	GPT-SoVITS	Coqui XTTS	商业 TTS
费用	免费开源	免费开源	付费
中文支持	优秀	一般	优秀
少样本能力	强	中等	强
WebUI	有	有	无
社区活跃度	高	中	-

后续优化方向：

增加训练数据量（1 小时 +）提升音色相似度
尝试 v4 最新版本获得最佳效果
探索不同参数组合找到最佳效果
对接更多 Agent 平台

参考资源#

资源	链接
官方仓库	https://github.com/RVC-Boss/GPT-SoVITS
官方文档	https://rentry.co/GPT-SoVITS-guide
中文文档	https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e
Windows 集成包	https://huggingface.co/lj1995/GPT-SoVITS-windows-package
预训练模型	https://huggingface.co/lj1995/GPT-SoVITS
在线体验	https://lj1995-gpt-sovits-proplus.hf.space/

如何使用 GPT-SoVITS 训练专属语音模型#

概述#

硬件准备与系统选择#

设备对比#

系统方案#

环境搭建#

方案一：Windows 独立包（推荐，零代码）#

下载独立包#

启动 WebUI#

方案二：Linux/macOS 手动安装#

安装 Conda#

创建环境并安装#

安装 FFmpeg#

下载预训练模型#

启动 WebUI#

声音数据采集#

数据采集要求#

零样本 vs 少样本对比#

推荐录音工具（零代码）#

录音样例文本（建议 10-30 分钟）#

录音技巧#

数据预处理#

步骤 1：进入 WebUI#

步骤 2：音频切片（自动分割长音频）#

步骤 3：音频降噪（可选）#

步骤 4：ASR 自动标注（生成文本）#

步骤 5：人工校正标注#

模型训练（WebUI 可视化）#

进入训练界面#

配置训练参数#

基础配置#

SoVITS 训练参数#

GPT 训练参数#

开始训练#

训练输出#

常见训练问题#

推理使用（WebUI 可视化）#

进入推理界面#

加载模型#

生成语音#

参数说明#

API 服务部署#

方式一：使用 VALL-E API（非官方）#

部署简易 API 服务#

方式二：启动 GPT-SoVITS 内置 API 服务#

方式三：对接现有 TTS API#

API 调用示例#

AI Agent 集成#

架构概述#

集成方案对比#

方案一：使用内置 API（推荐）#

方案二：完整 AI Agent 集成示例#

启动 TTS API 服务#

TTS 客户端封装#

AI Agent 集成#

支持流式输出的 Agent#

方案三：WebSocket 实时语音（高级）#

常用 AI Agent 平台集成#

对接 Claude / ChatGPT#

对接本地 RAG 知识库#

常见集成问题#

推荐工作流#

文件监听方案#

命令行工具参考#

音频切片#

中文 ASR#

英文 / 日文 ASR（Faster Whisper）#

UVR5 人声分离#

常见问题#

Q1: 显存不足 (CUDA OOM)#

Q2: 训练后音色不像本人#

Q3: 音频有杂音或失真#

Q4: WebUI 无法打开#

Q5: 中文发音不准确#

Q6: 推理速度太慢#

Q7: 模型文件太大#

总结#

参考资源#

Related Posts

Comments