0xMimic 发表于 2023-7-1 13:06:50

Stable Diffusion模型训练(4):最简单的训练方式Textual Inversion

!(https://pic1.zhimg.com/70/v2-babb84a081bd55645fa102c47c730dcc_1440w.image?source=172ae18b&biz_tag=Post)

作者:正气凛然郭大侠

## 0 论文来源

论文标题:An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

文章链接:

(https://pic4.zhimg.com/v2-4baaae2386ede0213c693947a141a747_180x120.jpg)](https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2208.01618v1)

github链接:

[https://github.com/rinongal/textual_inversion**github.com/rinongal/textual_inversion**](https://link.zhihu.com/?target=https%3A//github.com/rinongal/textual_inversion)

## 1. 简述

AI绘画模型具备非常强大的生成能力,可以根据任意文本描述生成指定的内容,并在在风格、构图、场景等方面具备很强的创造性。但是如果生成具备某种唯一特征的内容,则很难通过文本描述来生成。对此Nvidia团队提出一种AI绘画模型微调方案Textual Inversion,可以实现微调带有目标内容的3~5张图片,进而使得模型能够准确学会该目标的唯一特征,并且还可以与为改内容合成新的背景、风格等。例如下图:

![](https://pic2.zhimg.com/80/v2-76977a36f552b1704a1864d91abe9b01_1440w.webp)

Figure 1: Examples

!(data/attachment/forum/202307/01/130046w2ri1pq2pfapefr2.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")

这个逆向的将目标的特征微调到文本embedding中也对应的该方案的名字Textual Inversion。该方案不仅能到特定的物体比如Figure1中的雕像,也可以用在人物、风格等场景下,并且多个训练后的embedding合一叠加使用,例如下图:

!(data/attachment/forum/202307/01/130156v9m82mm44ha2g4ez.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")

## 2. 具体方案

本方案可行的依据是 **微调训练的embedding可以足够表示目标特征的语义信息** ,原文如下:

> Prior work has shown that this embedding space is expressive enough to capture basic image semantics (Cohen et al., 2022; Tsimpoukelli et al., 2021).

与LoRA[[最流行的训练方式Lora](https://zhuanlan.zhihu.com/p/632245554)]、Dreambooth[[效果最好的训练方式DreamBooth](https://zhuanlan.zhihu.com/p/630754310)]相比,该方案需要微调的参数量最小,训练数据最少(对于较为复杂的物体特征的拟合能力是有限的,从文章后面给出的人物的效果可以发现)。本方案主要包括三部分:

### 2.1Text embeddings

!(data/attachment/forum/202307/01/130532sbv56v062bv8o5vo.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")

### 2.2 Latent Diffusion Models

这部分是目前Diffusion模型中应用最广泛的方式,原理我在这里介绍过了[改善Diffusion效率问题,Latent Diffusion Model(for stable diffusion)](https://zhuanlan.zhihu.com/p/556302507)

### 2.3 Textual inversion

!(data/attachment/forum/202307/01/130552oaoc2ko1y44572x3.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/300 "image.png")

## 3. 实验结果

本方案从以下几个方面进行了实验效果验证:

### 3.1 目标内容复现

![](https://pic4.zhimg.com/80/v2-0c6358a97910adb0716527f8f8cb0fa3_1440w.webp)

Figure 3: Object variations generated using our method, the CLIP-based reconstruction of DALLE-2 (Ramesh et al., 2022), and human captions of varying lengths.

### 3.2 文本引导效果合成

![](https://pic1.zhimg.com/80/v2-a99aa7365530ab792b03b57504293238_1440w.webp)

Figure 4: Additional text-guided personalized generation results.

### 3.3 风格迁移

![](https://pic4.zhimg.com/80/v2-eb5128428332c3bcdb9d2e72b4dd03bf_1440w.webp)

Figure 6: The textual-embedding space can represent more abstract concepts, including styles.

### 3.4 多内容效果组合

![](https://pic3.zhimg.com/80/v2-c831cdb714731110a831760c11f7475a_1440w.webp)

Figure 7: Compositional generation using two learned pseudo-words.

## 4. 写在最后

实践中发现该方案对于特征比较精细的内容难以学习的比较准确,例如人脸、服装等。适合做一个简单风格类或者表情这方面。
页: [1]
查看完整版本: Stable Diffusion模型训练(4):最简单的训练方式Textual Inversion