DreamTuner

2024-09-08 16:09:59 211

站点名称：DreamTuner

官方网址：https://dreamtuner-diffusion.github.io

访问官网

站点介绍

DreamTuner是由字节跳动开发的一款人工智能图像生成工具。这是一种从单个图像生成主体驱动的新通用方法，可以创建令人震惊的一致主体身份。你只需要提供一张图片，DreamTuner就能帮你生成与这张图片在主题和风格上一致的新图像。这个工具特别适用于需要根据特定主题或条件创建个性化图像的场景。

DreamTuner视频介绍：

https://img.pidoutv.com/wp-content/uploads/2024/04/1379350032-1-16.mp4

DreamTuner生成的图像效果展示：

DreamTuner的功能特点

文本控制的主题驱动图像生成：DreamTuner能够根据文本输入生成与特定主题（如动漫角色）相关的图像。它支持局部编辑（如表情变化）和全局编辑（如场景和动作的变化），即使在复杂的文本输入下也能生成高度详细的图像。

风格主题一致：通过主题编码器和自主题注意力，DreamTuner能够成功生成与文本输入一致且保留关键主题细节的高保真图像。

单图主题生成：DreamTuner具有从单张参考图片生成与之主题和风格一致的新图像的能力。这大大降低了数据量的需求，使得DreamTuner能够在更广泛的场景中使用。

保留重要细节：通过自主题注意力层，DreamTuner可以有效地保留参考图片中的重要细节，如人物表情、场景背景等。

灵活通用：除了文本描述，DreamTuner还可以根据姿势等其他条件控制生成，适用范围更加广泛。

解决角色一致性：DreamTuner的出现有效解决了角色一致性问题，能够在生成新图时完美保留输入图片的角色，并且实现了极高的融合度。

DreamTuner的技术原理我们提出DreamTuner作为一个基于微调和图像编码器的主题驱动图像生成的新框架，它保持了主题从粗到细的身份。DreamTuner包括三个阶段:主题编码器预训练、主题驱动微调和主题驱动推理。首先，对主题编码器进行粗身份保持训练。主题编码器是一种为生成模型提供压缩图像特征的图像编码器。利用冻结控制网实现内容与布局的解耦。然后我们在参考图像和一些在DreamBooth中生成的常规图像上对整个模型进行微调。注意，主体编码器和自我主体注意用于常规图像生成，以细化常规数据。在推理阶段，使用主体编码器、自我主体注意和通过微调得到的主题词[S*]，实现由粗到精的主体身份保持。预训练的ControlNet也可用于布局控制生成。 DreamTuner

提出主题编码器作为一种图像编码器，为主题驱动的生成提供了一个粗略的参考。采用冷冻CLIP图像编码器提取参考图像的压缩特征。采用显著目标检测(SOD)模型或分割模型去除输入图像的背景，突出主题。

引入一些残差块(ResBlock)进行域移位。CLIP提取的多层特征在通道维度上进行拼接，然后通过残差块调整到与生成的特征相同的维度。使用额外的主题编码器-注意(S-E-A)层将主题编码器的编码参考特征注入到文本-图像模型中。主题-编码器-注意层在视觉-文本交叉注意层之前添加，因为交叉注意层是控制生成图像的一般外观的模块。

根据与交叉注意相同的设置和输出层的初始值为零来构建主题编码器注意。引入一个附加系数β来调节主体编码器的影响。此外，主题编码器将为文本到图像的生成提供参考图像的内容和布局。然而，在大多数情况下，主题驱动生成不需要布局。

进一步引入ControlNet来帮助解耦内容和布局。具体来说，我们训练主题编码器连同冻结深度控制网。由于ControlNet提供了参考图像的布局，因此主题编码器可以更加专注于主题内容。

由于主题编码器为生成过程提供了特定主题的总体外观，我们进一步提出了基于原始自注意层的自我主题注意，以保持良好的主题身份。将预先训练好的文本到图像U-Net模型提取的参考图像特征注入到自注意层中。参考特征与生成图像的特征具有相同的分辨率，可以提供精细化的详细参考。具体而言，在每个时间步长t对参考图像进行扩散前处理，然后从噪声后的参考图像中提取每个自注意层前的参考特征，使其与时间步长t生成的图像特征具有相同的数据分布。利用参考特征将原始自注意层修改为自主体注意层。将生成图像的特征作为查询，将生成图像特征与参考图像特征的拼接作为键和值。为了消除参考图像背景的影响，使用显著目标检测(SOD)模型创建前景蒙版，用0和1表示背景和前景。此外，遮罩还可以通过权重策略来调整参考图像的影响程度，即将遮罩乘以调整系数ωref。掩码作为注意偏差，因此使用log函数作为预处理。 DreamTuner

将原来的分类器自由引导方法也修改为： DreamTuner

其中zt为时间步长t时生成的图像，c为条件，uc为不希望的条件，rt – Δt和rt Δt ‘为时间步长t – Δt和t Δt ‘时的扩散噪声参考图像，Δt和Δt ‘为小时间步长偏差，ωr和ωc为引导尺度，λ t为最终输出。第一个方程强调参考图像的引导，第二个方程强调条件的引导，其中pr控制选择第一个的可能性。自我主体注意图的可视化我们将生成过程的中间时间步(t=25)和最后时间步(t=0)的自我主体注意图可视化，文字为“1girl [S*]，坐在桌旁，手里端着一杯茶，阳光从窗户射进来”。我们选择Diffusion U-Net模型的Encoder layer 7、8和Decoder layer 4、5的注意图，即当生成的图像分辨率为512*512时，特征分辨率为16*16的层。生成的图像显示在左边，参考图像显示在右边。注意力地图上，影响力大的区域呈红色，影响力小的区域呈蓝色。红色框表示查询。解码器第5层的一些关键注意图如下所示。可以发现所生成的图像将从参考图像中查询精炼的主题信息。