当前热议!AI降维打击画家，文生图引入ControlNet，深度、边缘信息全能复用

 当前位置：首页 > 行业热点 > 正文

来源：机器之心Pro 时间：2023-02-22 01:41:48

 字号：大中小

机器之心报道机器之心编辑部

(资料图片)

通过「添加额外条件」来控制扩散模型，斯坦福大学最新的一项研究让图生图效果更上了一层楼。

随着大型文本 - 图像模型的出现，生成一幅吸引人的图像已经变得非常简单，用户需要做的就是动动手指输入简单的 prompt 就可以。通过一系列操作得到图像后，我们不免又会产生这样几个问题：基于 prompt 生成的图像能够满足我们的要求吗？我们应该构建怎样的架构来处理用户提出的各种要求？在特定任务中，大型模型是否还能保持从数十亿张图像中获得的优势和能力？

为了回答这些问题，来自斯坦福的研究者对各种图像处理应用进行了大量调查，并得出以下三个发现：

首先，在特定领域中可用数据实际比训练通用模型的数据要少，这主要表现在，例如在特定问题上（例如姿态理解等）最大的数据集通常低于 100k，比大规模、多模态文本图像数据集 LAION 5B 少了 5 × 10^4 数量级。这就要求神经网络鲁棒性要好，以避免模型过度拟合，并在针对特定问题时具有良好的泛化性。

其次，当使用数据驱动处理图像任务时，大型计算集群并不总是可用的。这时快速训练方法就变得很重要，这种方法在可接受的时间和内存空间内能够针对特定任务对大模型进行优化。更进一步，在后续的处理过程中可能还需要微调、迁移学习等操作。

最后，在图像处理过程中遇到的各种问题会有不同形式的定义方式。在解决这些问题时，虽然图像扩散算法可以以「程序化（procedural）」方式进行调节，例如，约束去噪过程、编辑多头注意力激活等，但这些手工制定的规则基本上是由人类指令规定的，考虑到一些特定的任务，如深度 - 图像、姿态 - 人等，这些问题本质上需要将原始输入解释为对象级或场景级的理解，这使得手工制作的程序方法不太可行。因此，想要在多个任务中给出解决方案，端到端学习是必不可少的。

基于上述发现，本文提出了一种端到端的神经网络架构 ControlNet，该架构可以通过添加额外条件来控制扩散模型（如 Stable Diffusion），从而改善图生图效果，并能实现线稿生成全彩图、生成具有同样深度结构的图、通过手部关键点还能优化手部的生成等。

论文地址：https://arxiv.org/pdf/2302.05543.pdf

项目地址：https://github.com/lllyasviel/ControlNet

效果展示

那么 ControlNet 效果到底如何呢？

Canny 边缘检测：通过从原始图像中提取线稿，能够生成同样构图的图像。

深度检测：通过提取原始图像中的深度信息，可以生成具有同样深度结构的图。

带有语义分割的 ControlNet：

使用基于学习的深度霍夫变换从 Places2 中检测直线，然后使用 BLIP 生成字幕。

HED 边缘检测图示。

人体姿态识别图示。

方法介绍

ControlNet 是一种神经网络架构，它可以增强具有任务特定（task-specific）条件的预训练图像扩散模型。我们先来看 ControlNet 的基本结构。

ControlNet 操纵神经网络块的输入条件，从而进一步控制整个神经网络的整体行为。这里「网络块」指的是一组神经层，它们被放在一起作为一个构建神经网络的常用单元，例如 resnet 块、多头注意力块、Transformer 块。

以 2D 特征为例，给定一个特征图 x [gf]3f5[/gf] R^h×w×c，其中分别为高度、宽度和通道数。具有一组参数 Θ 的神经网络块 F ([gf]30fb[/gf]; Θ) 将 x 转换为另一个特征图 y，如下公式 (1) 所示。

这一过程如下图 2-(a) 所示。

神经网络块由一种被称为「零卷积」的独特卷积层连接，即权重和偏置都零初始化的 1×1 卷积层。研究者将零卷积运算表示为 Z ([gf]30fb[/gf];[gf]30fb[/gf]) ，并使用两个参数实例组成 ControlNet 结构，如下公式 (2) 所示。

其中 y_c 成为该神经网络块的输出，如下图 2-(b) 所示。

图像扩散模型中的 ControlNet

研究者以 Stable Diffusion 为例，介绍了如何使用 ControlNet 控制具有任务特定条件的大型扩散模型。Stable Diffusion 是一种在数十亿张图像上训练的大型文本到图像扩散模型，本质上是一个由编码器、中间块和残差连接解码器组成的 U-net。

如下图 3 所示，研究者使用 ControlNet 来控制 U-net 的每一层。需要注意，这里连接 ControlNet 的方式在计算上是高效的：由于原始权重被锁定，原始编码器上的梯度计算不需要进行训练。并且又由于原始模型上少了一半梯度计算，可以加快训练速度并节省 GPU 内存。使用 ControlNet 训练一个 Stable Diffusion 模型只需要在每次训练迭代中增加大约 23% 的 GPU 内存和 34% 的时间（在单个 Nvidia A100 PCIE 40G 上测试）。

具体地，研究者使用 ControlNet 创建了 12 个编码块和 1 个 Stable Diffusion 中间块的可训练副本。这 12 个编码块有 4 种分辨率，分别为 64×64、32×32、16×16 和 8×8，每种分辨率有 3 个块。输出被添加到 U-net 的 12 个残差连接和 1 个中间块。由于 Stable Diffusion 是典型的 U-net 结构，因此这种 ControlNet 架构很可能可以用于其他扩散模型。

训练及提升训练

给定图像 z_0，扩散算法渐进地向图像添加噪声并产生噪声图像 z_t，t 是添加噪声的次数。当 t 足够大时，图像近似于纯噪声。给定一组包括时间步长 t、文本 prompts c_t 的条件以及任务特定条件 c_f，图像扩散算法学习网络 [gf]3f5[/gf]_θ 以预测添加到噪声图像 z_t 的噪声，如下公式 (10) 所示。

在训练过程中，研究者随机将 50% 的文本 prompts c_t 替换为空字符串，这有利于 ControlNet 从输入条件 map 中识别语义内容的能力。

此外，研究者还讨论了几种改进 ControlNets 训练的策略，特别是在计算设备非常有限（如笔记本电脑）或非常强大（如具有可用大规模 GPU 的计算集群）的极端情况下。

更多技术细节请参阅原论文。

标签：

当前热议!AI降维打击画家，文生图引入ControlNet，深度、边缘信息全能复用

天天简讯:防臭鞋垫对身体有害吗_防臭鞋垫对身体有没有害

全球观点：大连市人社局发布2023年辽宁省考大连考区考前提示

当前热文：上海医药：WST01获得美国FDA临床试验批准

天天观焦点："一问三不知"卫健委主任有新职务，当地回应

世界热点！2023年MINISFORUM春季新品发布会

天天快消息！汉得信息2月21日盘中涨幅达5%

环球观察：法媒：巴黎、布莱顿和莱斯特城对CDK感兴趣，米兰愿意出售

天天资讯：因染粉色头发被网暴的女生去世，师友：她曾向网暴和抑郁症努力抗争

焦点速递！市民政局多举措保障“公民婚育一件事” 工作有序推进

每日观察!华兰生物：子公司四价流感病毒裂解疫苗可用于预防流感病毒引起的流感

【新要闻】蒸螃蟹怎么蒸好吃_蒸螃蟹的三个小技巧介绍

今日热门!TA：曼联出售不会影响拉什福德续约，双方已开始初步谈判

世界观热点：《咸鱼之王》蔡文姬获得方法

热讯：香砂养胃丸的功效与作用价格_香砂养胃丸的功效与作用

今日精选：杭州某小学出现多名阳性学生 官方通报：均为首次感染

视点！驻冀全国人大代表开展会前视察：推动县域特色产业集群做强做优做大

【全球报资讯】工艺破碎机好玩吗 工艺破碎机玩法简介

天天热讯:马兰坡电影院福利_马兰坡电影

世界播报:使用开源 MaxKey 与 APISIX 网关保护你的 API

【环球热闻】辛卡拉wwe_辛卡拉

每日观点：阳了应该怎么办-阳性感染者如何用药 02月19日14时内蒙古巴彦淖尔疫情数据

世界微资讯！伦敦金属交易所LME：铝库存减少5925吨

每日看点！魔域英雄霜焰公主怎么样

世界快资讯：发售1天就下架，5天炸服4次！这些游戏是霉运缠身还是自己作死？

焦点消息！微信键盘更新：常用语支持自定义输入码

每日聚焦：《宿醉》男星加盟真人版《星际宝贝》，电影《穿着鞋子的贝壳马塞尔》导演执导

新资讯：推荐｜这些铁路今年有望开通，有经过你家乡的吗

环球微头条丨从排骨男变身肌肉男吧_排骨男蜕变

世界热点！如何去除橙子的种子

时讯：传《地铁 : 离去》续作已完整可玩，将于2024年发售

快看：“谁提的建议谁抓落实，以后谁还愿意提建议”建言献策会缘何静悄悄

今日热讯：《伊克西翁》第三章通关技巧一览[多图]

即时焦点：领导带队！长岛北隍城乡实地督导检查底线工作

焦点！山东新报

世界热议:览易对战平台黄了吗 览易对战平台

世界微动态丨西安碑林城投25亿元私募债券项目状态更新为“已反馈”

当前最新：长沙投靠落户有年龄限制吗

每日关注!湖北艺考改革方案呈现多处变化

全球快资讯丨早间公告汇总

世界观热点：明查｜白俄罗斯总统卢卡申科携全家逃往莫斯科？太假了

全球今头条！02月17日从大理出发到伊犁的防疫政策

当前热讯：dnf属性攻击宝珠去哪获得_DNF属性攻击宝珠

快资讯丨菲菲庆祝AG2连胜，发文：很开心，给全队加鸡腿，距离S组一步之遥

环球速看：误工费是医嘱天数吗

世界热推荐：福建：鼓励银行机构合理下调新发放首套个人住房贷款利率

【天天热闻】彭博社：苹果首款MR头显再被推迟，或到6月份WWDC发布

全球滚动:今天最新消息 宁马城际铁路全线首个连续梁“0号块”顺利浇筑

视讯！石家庄播音主持培训哪个学校好

前沿热点：《三世书》：前世·今世·后世，三世之命历

今日精选：杭州某小学出现多名阳性学生官方通报：均为首次感染

【全球报资讯】工艺破碎机好玩吗工艺破碎机玩法简介

世界热议:览易对战平台黄了吗览易对战平台

全球滚动:今天最新消息宁马城际铁路全线首个连续梁“0号块”顺利浇筑