您想使用AI和机器学习在任何语言中唱任何歌曲吗?如果是的话,您应该尝试在GitHub上的so-vits-svc唱歌声音转换分支。这是一个功能强大且易于使用的工具,可以在几秒钟内将任何声音转换为另一个声音。
声音转换是将说话者的声音转换为另一个声音,而不改变言语的含义或情感的过程。这可以有各种应用,如娱乐、教育、辅助功能和隐私保护。
so-vits-svc分支基于VITS,这是一个先进的神经网络模型,可以以端到端的方式从文本合成语音。so-vits-svc分支添加了一些功能和改进,例如实时声音转换、QuickVC集成、更快的训练、GUI和统一的CLI等。
在本博客文章中,我将向您展示如何在自己的计算机或Google Colab上安装和使用so-vits-svc分支。我还将演示如何仅需几次点击将任何声音转换为另一个声音。最后,我将分享使用不同说话者和风格进行声音转换的一些示例和比较。
SVC分支是什么?AI语音克隆的开源解决方案
so-vits-svc(SVC)分支是在GitHub上开发的开源软件,可以让任何人训练自己的AI模型以任何声音和语言进行语音合成。您只需要一张合理的显卡和Linux或Microsoft Windows操作系统,就可以开始使用了。
该过程涉及使用任何语言的语音样本,结合一些机器学习技术。您现在将拥有一个不仅听起来像那个声音,而且可以以与原始声音相同的语调和语音语气说任何语言的AI模型。
您可以使用HuggingFace上的预训练模型。
安装
so-vits-svc分支的安装非常简单明了。您可以使用pip或GitHub进行安装。
使用pip
要使用pip安装so-vits-svc分支,只需在终端中运行以下命令:
pip install -U so-vits-svc-fork
这将安装最新版本的so-vits-svc分支及其所有依赖项。
使用GitHub
要使用GitHub安装so-vits-svc分支,您需要克隆存储库并手动安装。您可以通过在终端中运行以下命令来实现:
git clone [https://github.com/voicepaw/so-vits-svc-fork.git](https://github.com/voicepaw/so-vits-svc-fork.git)
cd so-vits-svc-fork
pip install -e .
这将克隆存储库并以可编辑模式进行安装。
在Google Colab上
您无需拥有搭载GPU的强大计算机即可使用so-vits-svc唱歌声音转换分支。您可以使用Google Colab,它将为您设置一切。您可以上传自己的数据集,或者使用so-vits-svc分支中的数据集。
要在Google Colab上使用so-vits-svc分支,请打开此笔记本并按照说明操作。它将向您展示如何运行一些示例。
更新
要将so-vits-svc分支更新到最新版本,您可以使用pip或GitHub。
使用pip
要使用pip更新so-vits-svc分支,只需在终端中运行以下命令:
pip install -U so-vits-svc-fork
这将更新软件包及其所有依赖项。
使用GitHub
要使用GitHub更新so-vits-svc分支,您需要从存储库中拉取最新的更改并重新安装它。您可以通过在终端中运行以下命令来实现:
cd so-vits-svc-fork
git pull
pip install -e .
这将拉取最新的更改并以可编辑模式重新安装软件包。
用法
使用so-vits-svc分支非常简单直观。您可以使用GUI或CLI来执行声音转换。
使用GUI
so-vits-svc分支的GUI是一个图形界面,允许您选择源说话者和目标说话者,调整一些参数,并听取转换后的声音。您可以通过在终端中运行以下命令启动GUI:
svc gui
这将打开一个类似下面这样的窗口:
在这里,您可以看到一些按钮和滑块,可以控制声音转换过程。您可以执行以下操作:
- 从预训练的说话者列表中选择源说话者,或从文件中加载自己的说话者。
- 从预训练的说话者列表中选择目标说话者,或从文件中加载自己的说话者。
- 调整音高变化因子以改变转换后声音的音高。
- 调整能量比例因子以改变转换后声音的响度。
- 调整持续时间比例因子以改变转换后声音的速度。
- 按下播放按钮以听取原始源声音。
- 按下转换按钮将源声音转换为目标声音。
- 按下停止按钮停止播放或转换。
- 按下保存按钮将转换后的声音保存为WAV文件。
您还可以将WAV文件拖放到GUI窗口中,以将其作为源声音加载。您还可以使用键盘快捷键控制GUI。例如,您可以按下空格键播放或停止声音,或按下回车键转换声音。
GUI还显示了有关源和目标说话者的一些信息,例如它们的名称、性别、语言和采样率。您还可以看到原始和转换声音的频谱图和F0轮廓的一些绘图。
GUI是尝试不同声音和风格的便捷和有趣方式。您可以尝试将自己的声音转换为另一个声音,或将著名歌手的声音转换为另一个歌手的声音。您还可以改变声音的音高、能量和持续时间,以创建不同的效果。
使用CLI
so-vits-svc分支的CLI是一个命令行界面,允许您使用一些参数和选项进行声音转换。您可以通过在终端中运行以下命令来使用CLI:
svc convert [OPTIONS] SOURCE_VOICE TARGET_SPEAKER
这将将源声音转换为目标说话者并将其保存为WAV文件。您可以指定一些选项来更改声音转换过程的某些参数。例如,您可以使用以下选项:
-o
或--output-path
指定转换后声音的输出路径。
-p
或--pitch-shift-factor
指定转换后声音的音高变化因子。
-e
或--energy-ratio-factor
指定转换后声音的能量比例因子。
-d
或--duration-ratio-factor
指定转换后声音的持续时间比例因子。
-s
或--speaker-mode
指定如何加载目标说话者。可以是pretrained
(预训练)、file
(文件)或cluster
(聚类)。
-c
或--cluster-model-path
指定聚类模型的路径(如果使用cluster
模式)。
您还可以使用-h
或--help
选项查看有关CLI用法和选项的更多信息。
CLI是一种快速灵活的方式,可使用不同的声音和参数进行声音转换。您可以使用它批量转换多个声音,或将其与其他工具和脚本集成使用。
示例和比较
为了展示so-vits-svc分支的能力,让我们看一些使用不同声音和风格进行声音转换的示例。
在这个YouTube视频中,您可以看到Nerdy Rodent如何使用Pixabay上的法语歌曲进行转换和演唱。他播放原始歌曲,然后播放转换后的版本。是不是很神奇?
https://www.youtube.com/watch?t=28&v=tZn0lcGO5OQ&embeds_referring_euri=https%3A%2F%2Fthelearness.com%2F&feature=emb_imp_woyt
将男性声音转换为女性声音
您会注意到转换后的声音听起来像是一个女性说话者,与源声音具有类似的语调和表达方式。语音的含义和自然度都得到了保留。
将女性声音转换为男性声音
您会注意到转换后的声音听起来像是一个男性说话者,与源声音具有类似的语调和表达方式。语音的含义和自然度都得到了保留。
改变声音的风格和情感
您可以将转换后的声音听起来像源声音的不同版本,具有不同的风格和情感。语音的含义得到了保留,但自然度可能会根据风格和情感的改变程度而有所不同。
结论
Sovits SVC Fork 是声音转换技术中的一次创新。它使用最先进的深度学习模型实现了实时的声音转换,可以转换任何声音和语言。
它还具有QuickVC、改进的GUI、统一的CLI、准确的音高估计、更快的训练和推断、简单的安装和更新以及预训练模型的自动下载等特点。通过使用Sovits SVC Fork,您可以创建自己的声音,并用任何语言演唱。立即尝试,看看人工智能能为您带来什么。
参考资料
如果您想了解更多关于 so-vits-svc fork 和声音转换的内容,可以查阅以下链接和资源:
- so-vits-svc fork 的 GitHub 仓库,您可以在此处找到源代码、文档、问题和讨论:[https://github.com/voicepaw/so-vits-svc-fork](https://github.com/voicepaw/so-vits-svc-fork)
- so-vits-svc fork 的 Google Colab 笔记本,您可以在 Colab 上运行该软件包,无需安装任何东西:[https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb](https://colab.research.google.com/github/34j/so-vits-svc-fork/blob/main/notebooks/so-vits-svc-fork-4.0.ipynb)
- so-vits-svc fork 的 PyPI 页面,您可以在此处找到软件包信息和安装说明:[https://pypi.org/project/so-vits-svc-fork/](https://pypi.org/project/so-vits-svc-fork/)
- so-vits-svc 的原始仓库,您可以在此处找到原始实现和模型:[https://github.com/sooftware/so-vits-svc](https://github.com/sooftware/so-vits-svc)
- SoftVC 的论文:A Soft Vocoder for End-to-End Singing Voice Conversion,您可以在该论文中找到模型的技术细节和评估结果:[https://arxiv.org/abs/2105.07894](https://arxiv.org/abs/2105.07894)
- VITS 的论文:Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech,您可以在该论文中找到模型的技术细节和评估结果:[https://arxiv.org/abs/2006.04558](https://arxiv.org/abs/2006.04558)