什么是 So-vits-svc (Sovits)?
So-vits-svc(又称 Sovits)是基于 VITS、soft-vc、VISinger2 等开发的免费 AI 语音转换模型。使用者只需准备语音或歌声数据,So-vits-svc 模型就能学习及掌握所输入的人声的音色和发音特点等,训练出使用者想要的音色。最近不少 AI 翻唱作品就是基于这个 so-vits-svc 开源项目。
AI 翻唱模型 Sovits 4.0 Google Colab 教程
准备工作
- 准备声音样本
AI 翻唱模型训练前需要先准备约 1-2 小时声音素材,可选择自己喜欢的歌曲或录音等。不过找的样本尽量要音质清晰、少杂音。
- 提取人声 (分离人声和背景音乐)
将背景音乐与人声分离,因为背景音乐会影响模型的推理效果。
步驟一:
到 Ultimate Vocal Remover (UVR5) Github,根據自己的電腦 (Window / Mac) 安裝 UVR5,暫時最新版本是 V5.5.1。
步骤二:
下载连结后,点击 UVR_v5.5.1_setup.exe 进行安装。完成安装后会见到以下界面。
步骤三:
在 UVR5 进行人声分离,在 Select Input 选择需要分离人声和伴奏的歌曲,处理完成后可以在 Output 的文件夹找到处理完成后的人声及伴奏档案。
如果不懂如何设定参数,可参考以下的参数设定。如有需要,亦可以收看我的视频教学: https://youtu.be/8FVvHXk9O7o。
如果人声效果不够好,可以参考以下设定,进行第二次处理。
其实 Ultimate Vocal Remover (UVR5) 提供不少方式处理人声分离。除了以上我介绍的方式,大家亦可试用不同方式测试人声分离效果。
UVR5 处理完成后到之前设定的 Output 文件夹找到人声档案,然后进行下一个步骤 - 分割人声。
- 分割人声
步骤一:
到 Audio Slicer Github 下载 Slicer-gui,暂时最新版本是 v1.2.1。
步骤二:
将 UVR5 处理好的人声档案进行分割,大概 10-20 秒一段。
首先,点击 "Add Audio Files" 上传人声素材,然后 在 Output Directory 位置设置输出文件夹位置。最后,点击 "Start" 开始分割人声档案。
第一次分割,可能会有一些档案超过 20秒。如果发现档案比较大,可以将 File Size 比较大的人声档案再上传到 slicer-gui 再次分割,参数可参考以下的设置。
训练模型
将 slicer-gui 分割好的档案压缩 (Zip),然后打开 Sovits 4.0 Google Colab。
步骤一:
到 Google Drive 新增资料夹,资料夹名称改为 "dataset"。
以我为例,我将 slicer-gui 分割好的档案压缩名称改为 gorgor.zip ,然后拖进 "dataset" 资料夹。
在 DATASETNAME 位置输入之前上传到 Dataset 文件夹的名称。因为我之前改的名称是 gorgor,所以我输入 gorgor,如下图。
在 Model saving 下勾选 "Save_to_drive"
步骤二:
在 44K 文件夹下载 config.json, D 开头的 pth 档案及 G 开头的 pth 档案。 D 和 G 开头 pth 档案选择数字最大的。
步骤三:
将 config.json, D 开头的 pth 档案及 G 开头的 pth 压缩档上传到 Mega 网站。然后,点击右上方的 "上传"上传压缩档。
点击档案右下方的三点,然后点击 "取得连结"。
复制连结。至于复制好的连结如何制作 AI 翻唱,可以看我上一篇文章 AI 翻唱教学 或AI 翻唱视频教学: https://youtu.be/79x-1JVbiKQ。