Stable Diffusion模型训练(4):最简单的训练方式Textual Inversion
!(https://pic1.zhimg.com/70/v2-babb84a081bd55645fa102c47c730dcc_1440w.image?source=172ae18b&biz_tag=Post)作者:正气凛然郭大侠
## 0 论文来源
论文标题:An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion
文章链接:
(https://pic4.zhimg.com/v2-4baaae2386ede0213c693947a141a747_180x120.jpg)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2208.01618v1)
github链接:
[https://github.com/rinongal/textual_inversion**github.com/rinongal/textual_inversion**](https://link.zhihu.com/?target=https%3A//github.com/rinongal/textual_inversion)
## 1. 简述
AI绘画模型具备非常强大的生成能力,可以根据任意文本描述生成指定的内容,并在在风格、构图、场景等方面具备很强的创造性。但是如果生成具备某种唯一特征的内容,则很难通过文本描述来生成。对此Nvidia团队提出一种AI绘画模型微调方案Textual Inversion,可以实现微调带有目标内容的3~5张图片,进而使得模型能够准确学会该目标的唯一特征,并且还可以与为改内容合成新的背景、风格等。例如下图:
![](https://pic2.zhimg.com/80/v2-76977a36f552b1704a1864d91abe9b01_1440w.webp)
Figure 1: Examples
!(data/attachment/forum/202307/01/130046w2ri1pq2pfapefr2.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")
这个逆向的将目标的特征微调到文本embedding中也对应的该方案的名字Textual Inversion。该方案不仅能到特定的物体比如Figure1中的雕像,也可以用在人物、风格等场景下,并且多个训练后的embedding合一叠加使用,例如下图:
!(data/attachment/forum/202307/01/130156v9m82mm44ha2g4ez.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")
## 2. 具体方案
本方案可行的依据是 **微调训练的embedding可以足够表示目标特征的语义信息** ,原文如下:
> Prior work has shown that this embedding space is expressive enough to capture basic image semantics (Cohen et al., 2022; Tsimpoukelli et al., 2021).
与LoRA[[最流行的训练方式Lora](https://zhuanlan.zhihu.com/p/632245554)]、Dreambooth[[效果最好的训练方式DreamBooth](https://zhuanlan.zhihu.com/p/630754310)]相比,该方案需要微调的参数量最小,训练数据最少(对于较为复杂的物体特征的拟合能力是有限的,从文章后面给出的人物的效果可以发现)。本方案主要包括三部分:
### 2.1Text embeddings
!(data/attachment/forum/202307/01/130532sbv56v062bv8o5vo.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")
### 2.2 Latent Diffusion Models
这部分是目前Diffusion模型中应用最广泛的方式,原理我在这里介绍过了[改善Diffusion效率问题,Latent Diffusion Model(for stable diffusion)](https://zhuanlan.zhihu.com/p/556302507)
### 2.3 Textual inversion
!(data/attachment/forum/202307/01/130552oaoc2ko1y44572x3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")
## 3. 实验结果
本方案从以下几个方面进行了实验效果验证:
### 3.1 目标内容复现
![](https://pic4.zhimg.com/80/v2-0c6358a97910adb0716527f8f8cb0fa3_1440w.webp)
Figure 3: Object variations generated using our method, the CLIP-based reconstruction of DALLE-2 (Ramesh et al., 2022), and human captions of varying lengths.
### 3.2 文本引导效果合成
![](https://pic1.zhimg.com/80/v2-a99aa7365530ab792b03b57504293238_1440w.webp)
Figure 4: Additional text-guided personalized generation results.
### 3.3 风格迁移
![](https://pic4.zhimg.com/80/v2-eb5128428332c3bcdb9d2e72b4dd03bf_1440w.webp)
Figure 6: The textual-embedding space can represent more abstract concepts, including styles.
### 3.4 多内容效果组合
![](https://pic3.zhimg.com/80/v2-c831cdb714731110a831760c11f7475a_1440w.webp)
Figure 7: Compositional generation using two learned pseudo-words.
## 4. 写在最后
实践中发现该方案对于特征比较精细的内容难以学习的比较准确,例如人脸、服装等。适合做一个简单风格类或者表情这方面。
页:
[1]