0xSoul 发表于 2023-4-10 16:43:12

一个根据Spectrogram图像数据训练的Stable Diffusion模型,让我们用文本提示生成音乐

想象一下,如果你能告诉机器学习模型 "用爵士萨克斯管演奏放克基调",它就会合成人工音乐!这就是我们的机器学习。实际上,你不需要想象,你可以直接使用它! 介绍一下RIFFUSION,一个根据Spectrogram图像数据训练的Stable Diffusion模型。这个想法很简单。




1.要挑选一个预先训练好的Stable Diffusion模型(Diffuse The Rest - a Hugging Face Space by huggingface-projects)就好了。
2.将大量的音乐及其文字描述转换成Spectrogram图像数据。
3.微调到Stable Diffusion模型。


在有了一个模型,可以根据其他谱图或文字提示预测新的谱图。只要将这些频谱图转换回音乐。




你现如果你想了解更多关于如何自己做的细节,你可以按照这里的流程:https://www.riffusion.com/about。



0xSoul 发表于 2023-4-10 20:03:45

https://i.seadn.io/gcs/files/90319cbe55a88e2051b09e5d4058ce43.png?auto=format&w=500&h=500
页: [1]
查看完整版本: 一个根据Spectrogram图像数据训练的Stable Diffusion模型,让我们用文本提示生成音乐