如何使用Google Colab训练AI翻唱模型？

0xSoul 发表于 2023-6-26 08:52:27

## 什么是 So-vits-svc (Sovits)?

So-vits-svc（又称 Sovits）是基于 VITS、soft-vc、VISinger2 等开发的免费 AI 语音转换模型。使用者只需准备语音或歌声数据，So-vits-svc 模型就能学习及掌握所输入的人声的音色和发音特点等，训练出使用者想要的音色。最近不少 AI 翻唱作品就是基于这个 so-vits-svc 开源项目。

## AI 翻唱模型 Sovits 4.0 Google Colab 教程

### 准备工作

1. 准备声音样本

AI 翻唱模型训练前需要先准备约 1-2 小时声音素材，可选择自己喜欢的歌曲或录音等。不过找的样本尽量要音质清晰、少杂音。

2. 提取人声 (分离人声和背景音乐）

将背景音乐与人声分离，因为背景音乐会影响模型的推理效果。

#### 步驟一:

到 (https://github.com/Anjok07/ultimatevocalremovergui)[，根據自己的電腦 (Window / Mac) ](https://github.com/Anjok07/ultimatevocalremovergui)安裝 (https://github.com/Anjok07/ultimatevocalremovergui)，暫時最新版本是 V5.5.1。

!(data/attachment/forum/202306/26/083657dzebwr9fr1gbet99.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "ACEhcy9e7NCJLIdqP-ZWO.png")

#### 步骤二:

下载连结后，点击 UVR_v5.5.1_setup.exe 进行安装。完成安装后会见到以下界面。

!(data/attachment/forum/202306/26/083700t9chf491rvy4ccjm.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "auMlQV1rXZrXENjEiW0Dc.png")

#### 步骤三:

在 UVR5 进行人声分离，在 Select Input 选择需要分离人声和伴奏的歌曲，处理完成后可以在 Output 的文件夹找到处理完成后的人声及伴奏档案。

如果不懂如何设定参数，可参考以下的参数设定。如有需要，亦可以收看我的视频教学: https://youtu.be/8FVvHXk9O7o。

!(data/attachment/forum/202306/26/083847usiw88jrc6rrsjj6.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "pTZ55QjCnCR4SgRQ9XWVo.png")

如果人声效果不够好，可以参考以下设定，进行第二次处理。

!(data/attachment/forum/202306/26/083950nrnyrj2uj1ju5u8j.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "fc0dSlcnoGP5flmxS_ZN- (1).png")

其实 Ultimate Vocal Remover (UVR5) 提供不少方式处理人声分离。除了以上我介绍的方式，大家亦可试用不同方式测试人声分离效果。

UVR5 处理完成后到之前设定的 Output 文件夹找到人声档案，然后进行下一个步骤 - 分割人声。

3. 分割人声

#### 步骤一:

到 Audio Slicer Github 下载 Slicer-gui，暂时最新版本是 v1.2.1。

!(data/attachment/forum/202306/26/084047az4uj1jstfufz0ad.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "u9fvqgpgNJJ4AAHQmvwie.png")

#### 步骤二:

将 UVR5 处理好的人声档案进行分割，大概 10-20 秒一段。

首先，点击 "Add Audio Files" 上传人声素材，然后在 Output Directory 位置设置输出文件夹位置。最后，点击 "Start" 开始分割人声档案。

!(data/attachment/forum/202306/26/084136enp8p0doz2023m3e.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "x59Fev0giku0LBNvkl7jK.png")

第一次分割，可能会有一些档案超过 20秒。如果发现档案比较大，可以将 File Size 比较大的人声档案再上传到 slicer-gui 再次分割，参数可参考以下的设置。

!(data/attachment/forum/202306/26/084248pwwwncenqc1yqcec.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "002.png")

**训练模型**

将 slicer-gui 分割好的档案压缩 (Zip)，然后打开[ Sovits 4.0 Google Colab。](https://colab.research.google.com/drive/1laRNiMSgSw_SxSnuti8oWIuC--RHzAGp)

#### 步骤一:

到 Google Drive 新增资料夹，资料夹名称改为 "dataset"。

!(data/attachment/forum/202306/26/084420a25u55d7x7zstzq5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "003.png")

以我为例，我将 slicer-gui 分割好的档案压缩名称改为 gorgor.zip ，然后拖进 "dataset" 资料夹。

在 DATASETNAME 位置输入之前上传到 Dataset 文件夹的名称。因为我之前改的名称是 gorgor，所以我输入 gorgor，如下图。

!(data/attachment/forum/202306/26/084655uznnffn4z99n4fnm.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "005.png")

在 Model saving 下勾选 "Save_to_drive"

!(data/attachment/forum/202306/26/084655zbk7bbub7dqukuob.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "006.png")

步骤二:

在 44K 文件夹下载 config.json, D 开头的 pth 档案及 G 开头的 pth 档案。 D 和 G 开头 pth 档案选择数字最大的。

!(data/attachment/forum/202306/26/084655otg72r40wrtzswsw.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "008.png")

!(data/attachment/forum/202306/26/084655kquoqqq6dniqnuqn.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "009.png")

!(data/attachment/forum/202306/26/084655plo5dd85wleg1ojo.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "010.png")

#### 步骤三:

将 config.json, D 开头的 pth 档案及 G 开头的 pth 压缩档上传到 Mega 网站。然后，点击右上方的 "上传"上传压缩档。

!(data/attachment/forum/202306/26/085036goxb3x1d5832tb1i.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "011.png")

点击档案右下方的三点，然后点击 "取得连结"。

!(data/attachment/forum/202306/26/085153ru5vj22z5n2572q0.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "012.png")

复制连结。至于复制好的连结如何制作 AI 翻唱，可以看我上一篇文章 AI 翻唱教学或AI 翻唱视频教学:https://youtu.be/79x-1JVbiKQ。

!(data/attachment/forum/202306/26/085222bpwx1kxxpqo8v49r.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "013.png")

yangweisc 发表于 2024-3-5 23:48:18

谢谢大佬分享

两眼丁真 发表于 2024-3-9 17:05:23

谢谢教程

安大卫 发表于 2024-3-15 15:13:19

认真学习，认真研究，争取很快回报一个模型回来分享:lol

1872417311 发表于 2024-3-26 01:09:49

感谢分享

sp1cae 发表于 2024-7-25 14:45:46

厉害大佬

页: [1]

金房子｜人工智能发烧友论坛｜AIGC发烧友论坛 | Stable Diffusion 论坛's Archiver

如何使用Google Colab训练AI翻唱模型？