作者:正气凛然郭大侠
0 论文来源
论文标题:An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
文章链接:
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversionarxiv.org/abs/2208.01618v1
github链接:
[https://github.com/rinongal/textual_inversion](https://github.com/rinongal/textual_inversion)github.com/rinongal/textual_inversion
1. 简述
AI绘画模型具备非常强大的生成能力,可以根据任意文本描述生成指定的内容,并在在风格、构图、场景等方面具备很强的创造性。但是如果生成具备某种唯一特征的内容,则很难通过文本描述来生成。对此Nvidia团队提出一种AI绘画模型微调方案Textual Inversion,可以实现微调带有目标内容的3~5张图片,进而使得模型能够准确学会该目标的唯一特征,并且还可以与为改内容合成新的背景、风格等。例如下图:
Figure 1: Examples
这个逆向的将目标的特征微调到文本embedding中也对应的该方案的名字Textual Inversion。该方案不仅能到特定的物体比如Figure1中的雕像,也可以用在人物、风格等场景下,并且多个训练后的embedding合一叠加使用,例如下图:
2. 具体方案
本方案可行的依据是 微调训练的embedding可以足够表示目标特征的语义信息 ,原文如下:
Prior work has shown that this embedding space is expressive enough to capture basic image semantics (Cohen et al., 2022; Tsimpoukelli et al., 2021).
与LoRA[最流行的训练方式Lora]、Dreambooth[效果最好的训练方式DreamBooth]相比,该方案需要微调的参数量最小,训练数据最少(对于较为复杂的物体特征的拟合能力是有限的,从文章后面给出的人物的效果可以发现)。本方案主要包括三部分:
2.1Text embeddings
2.2 Latent Diffusion Models
这部分是目前Diffusion模型中应用最广泛的方式,原理我在这里介绍过了改善Diffusion效率问题,Latent Diffusion Model(for stable diffusion)
2.3 Textual inversion
3. 实验结果
本方案从以下几个方面进行了实验效果验证:
3.1 目标内容复现
Figure 3: Object variations generated using our method, the CLIP-based reconstruction of DALLE-2 (Ramesh et al., 2022), and human captions of varying lengths.
3.2 文本引导效果合成
Figure 4: Additional text-guided personalized generation results.
3.3 风格迁移
Figure 6: The textual-embedding space can represent more abstract concepts, including styles.
3.4 多内容效果组合
Figure 7: Compositional generation using two learned pseudo-words.
4. 写在最后
实践中发现该方案对于特征比较精细的内容难以学习的比较准确,例如人脸、服装等。适合做一个简单风格类或者表情这方面。