让我们来探讨如何使用AutoDL云GPU实现云端部署SO-VITS-SVC 4.0训练模型的方法。对于那些电脑配置较低的用户,自己在本地进行模型训练可能会面临一些困难。因此,我们将介绍如何利用AutoDL云GPU轻松实现部署。在进行以下操作之前,请确保已准备好数据集。如果你不知道如何准备数据集,可以查看我们的另一篇教程。
AutoDL是一款提供付费云GPU服务的平台,官方网址为[https://www.autodl.com](https://www.autodl.com) 。该平台提供多种配置选项,根据显存大小不同,价格也会有所变化。如果你只需要偶尔使用GPU资源,可以选择按量计费的方式,按实际使用时间进行计费,计费单位精确到秒。
在算法社区中,你可以使用其他人部署好的镜像来快速安装所需的软件环境。对于你的情况,建议选择第二个LogE的镜像,并点击打开它。
通过选择适当的镜像,你可以快速获得一个预配置好的环境,无需手动安装和配置所需的软件。这样可以节省时间并简化设置过程,让你能够更快地开始使用所需的功能。
点击打开选择的镜像后,你可以按照指导进行安装,并根据你的需求进行进一步的配置和调整。
然后点击autodl创建容器。
选择适合自己需求的GPU类型,然后点击页面右下角的"立即创建"按钮。如果你的余额不足,可以先进行充值,充值5元试用一下。
确保根据你的项目需求选择合适的GPU类型,以获得所需的计算能力和显存容量。点击"立即创建"按钮后,系统将开始为你配置所选的GPU资源。
然后点击jupyterlab打开文件操作页面。
将数据集上传到/so-vits-svc4/dataset_raw/文件夹内。
然后点击加号,新建一个标签页,然后点击下面的终端,
然后在终端内输入如下代码,然后回车
python app.py
出现提示http://127.0.0.1:6006/字样后webui页面就生成好了,然后打开用户后台,容器实例列表,点击自定义服务,就可以打开webui页面操作界面了。
然后点击【训练】-【识别数据集】按钮识别上传的数据集。然后点击【数据预处理】,预处理需要几分钟的时间。
等待预处理过程完成,当输出信息显示为100%时,表示预处理数据已成功完成。此时,检查显示的【当前使用训练分支】为v1,并确保【说话人列表】显示正常结果。这表明预处理数据已成功生成。
接下来,点击【写入配置文件】按钮,等待输出信息显示"配置文件写入完成",这表示配置文件已成功写入。
确保在预处理和配置文件写入过程中没有出现任何错误信息,以确保数据处理和配置设置的准确性和完整性。
然后点击【从头开始训练】按钮,训练就绪后,复制如图所示代码。
接下来,按照上述步骤,新建一个终端,并将相应的训练代码粘贴到终端中,然后按回车键开始训练。请注意,训练过程可能非常耗时,可能需要几个小时的时间完成,具体的训练时间取决于你的显存大小和训练数据的规模。
在训练过程中,请耐心等待,避免中途中断或中止训练。训练的时间长度和进度将根据你的GPU显存和其他训练参数而有所不同。
请注意,训练过程的时间和进度可能会有所波动,具体取决于许多因素,包括硬件配置、训练数据的规模和复杂性等。
训练步数建议在2万步以上,如果想停止训练的话,在终端界面按键盘上的Ctrl+C键终止训练,如果训练暂停了的话想接着训练,就点击【继续上一次的训练进度】就可以接着上一次的训练,模型训练好了以后。点击训练聚类模型。然后将下面的代码复制到终端运行。
训练聚类模型这个过程中没有输出信息,你可以在用户后台,实例列表,实时监控里查看CPU使用情况,如果有使用则说明正在训练。训练完成后,终端里会输出end提示。
然后点击推理选项卡-刷新选项,然后选择模型信息,然后点击加载模型。
模型加载成功后,上传只有人声的音频,然后点击音频转换,即可将音频里的声音转换成我们模型里的声音。
转换成功后,你可以播放音频文件进行试听,具体的转换效果取决于提供的音频数据集的质量和模型训练的准确性。如果你希望在本地使用训练好的模型,只需将"logs\44K"文件夹中的内容下载到本地对应的目录即可。
在这里提醒大家,当使用自己的声音进行训练时,请确保遵守相关法律法规和许可协议。避免使用未经授权的数据集进行训练,以免产生法律纠纷或其他不必要的麻烦。
如果你有兴趣尝试并进行实验,请谨慎操作,并确保遵循合法和道德的原则。愿你在尝试中获得有益的经验和成果!