CVPR 2021｜可操控的GAN——Hijack-GAN

原创孙裕道 PaperWeekly 2022-07-04

收录于合集 #计算机视觉 126个

©PaperWeekly 原创 · 作者 | 孙裕道

学校 | 北京邮电大学博士生

研究方向 | GAN图像生成、情绪对抗样本生成

前言

该论文是关于 GAN 图像生成类的文章，并收录于 CVPR 2021。当前 GAN 表现出越来越强的性能，其生成图像的真实感也越来越难以与自然图像区分开来，但是根植于深度学习的黑盒不可解释性的问题，GAN 也存在这个问题，即 GAN 中的输入噪声如何有方向感的生成真实样本。在该论文中作者利用雅可比矩阵对输入噪声进行迭代，从而在高度非线性的高维空间中获得对图像生成过程的控制。

该论文中的方法很简单，但是其论文提供的思想可以为打开 GAN 模型可操控性的提供了一个新的思路，非常值得一读，论文中还提供了相应的源码，感兴趣的可以下载下来跑一跑。

论文标题：

Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs

论文链接：

https://arxiv.org/abs/2011.14107

代码链接：

https://github.com/a514514772/hijackgan

Hijack-GAN

Hijack-GAN 模型的框架如下所示，该框架可以分为两部分，图片的左边部分训练一个代理模型，以从预先训练的模型中提取信息，绕过访问预先训练的模型的梯度，图片的右边部分表示在梯度的引导下生成可控制性的噪声向量。

2.1 问题描述

考虑将噪声映射到真实图像的生成器，以及将图像映射到属性空间的一个或多个任务模型。在该论文中作者的目标是将在噪声空间中找到轨迹，使得当沿着该路径遍历时，可以逐渐实现 GAN 模型的可控制性，具体的公式如下：

其中是损失函数，并且模型的参数和训练数据是不可访问的，这使得优化方法无法直接求解。

2.2 非线性遍历

在该论文中作者首先训练一个代理模型来从模型中提取信息，利用数据对来训练代理模型，使其能够将输入噪声映射到属性空间；为了避开直接访问梯度，同时保持了解属性和噪声之间的关系，作者直接计算代理模型相对于输入噪声的雅可比矩阵：

其中表示代理预测的第个属性。矩阵的每一行向量表示为，该属性表示为相应属性变化最快的方向；鉴于此，作者设计了一种算法，在向量的指导下迭代更新噪声的位置：

其中表示为决定更新速度的超参数，通过反复计算以上迭代公式，在每一步中，生成的图像中的目标属性将被逐渐修改，尽管 GAN 是黑盒的但仍然能够对图像生成的进行控制。

2.3 正交约束

在许多情况下，图像属性可能会所相互关联的，这意味着如果只沿着迭代等式中最速方向变化，其他非目标属性也会相应发生变化。为了缓解这个问题，作者提出了正交约束条件。因为每一行向量表示对某些属性影响最大的一个方向，其目标是找到一个与目标方向有最大内积的向量正交于其他非目标方向。其中目标函数和约束条件如下所示：

其中是求解的最优方向向量，矩阵的每一行由属性向量组成。

实验结果

3.1 属性控制

下图比较了论文中的方法，与线性方法在和上编辑 4 个属性的效果。这三种方法都成功地编辑属性，但论文中的方法产生的失真要小得多。线性方法无法编辑微笑属性。与相比，论文中的方法保留了更多的非目标内容，这验证了相比而言论文中的迭代方法的更具优势。

下图显示了论文中的方法可以在大多数属性上快速改变目标属性，尤其是在罕见的属性上，如金发、苍白的皮肤和狭窄的眼睛这些属性上。这个结果与论文中的假设一致，即噪声空间中并非所有属性都呈线性分布。

如下图所示，作者可视化了对稀有属性的操控，证实了论文方法的有效性。除了有效的操作之外，还可以看到所有方法的非目标属性在操作过程中都发生了变化。

下图分别展示了和上的结果。在上，论文中的方法很好地保留了非目标属性，并有效地修改了目标属性。在上，所有的方法都成功地编辑了属性，而论文的方法看起来更接近输入。这些结果表明，论文中约束方法可以有效地编辑目标属性，同时保留其他属性。

下图显示所有的方法在几乎所有的属性上都达到了最高的比率，验证了非线性迭代方案不仅提高了属性操作，而且有助于属性保存。

下表给出了和的评估结果。在无条件设置中，两种方法都产生相对平滑的轨迹。这可以归因于相对线性的流形，论文中的方法在条件设置中大大超过了其它方法，因为它可以很好地保留非目标属性，从而导致更平滑的转换。

下表比较了论文的方法和鲁棒性和误差。可以发现论文的方法更准确地逼近基础函数。由于迭代方法，即使当估计点远离初始点时，论文的方法也获得了较低的误差。

如下图所示，作者对偏角和俯角的图像进行平滑插值。当迫使姿势超过一定程度时，会发生一些伪像或不希望的变化。但利用论文中的框架后，只要它们在预先训练的 GAN 的训练数据中是可行的，就可以生成任意姿态的人脸。

下图显示了编辑鼻子和嘴的坐标时的结果。可以发现有些属性是高度相关的，例如嘴部标志与微笑高度相关。为了测量相关性，作者另外计算方向向量之间的余弦相似度相似度越高，说明纠缠度越高。作者分析了嘴部标志与微笑的相关性为，以及嘴部标志与性别的相关性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

CVPR 2021｜可操控的GAN——Hijack-GAN

2.1 问题描述

您可能也对以下帖子感兴趣

一把短刀，怎么就让他连捅18人？！

向杨大市长道歉

向不容妄议的杨市长道歉

以色列搞大了：伊朗说要直接出兵参战

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

生成图片，分享到微信朋友圈

CVPR 2021｜可操控的GAN——Hijack-GAN

2.1 问题描述

您可能也对以下帖子感兴趣