查看原文
其他

CVPR 2021|可操控的GAN——Hijack-GAN

孙裕道 PaperWeekly 2022-07-04


©PaperWeekly 原创 · 作者 | 孙裕道

学校 | 北京邮电大学博士生

研究方向 | GAN图像生成、情绪对抗样本生成




前言

该论文是关于 GAN 图像生成类的文章,并收录于 CVPR 2021。当前 GAN 表现出越来越强的性能,其生成图像的真实感也越来越难以与自然图像区分开来,但是根植于深度学习的黑盒不可解释性的问题,GAN 也存在这个问题,即 GAN 中的输入噪声如何有方向感的生成真实样本。在该论文中作者利用雅可比矩阵对输入噪声进行迭代,从而在高度非线性的高维空间中获得对图像生成过程的控制。

该论文中的方法很简单,但是其论文提供的思想可以为打开 GAN 模型可操控性的提供了一个新的思路,非常值得一读,论文中还提供了相应的源码,感兴趣的可以下载下来跑一跑。

论文标题:

Hijack-GAN: Unintended-Use of Pretrained, Black-Box GANs


论文链接:

https://arxiv.org/abs/2011.14107


代码链接:

https://github.com/a514514772/hijackgan




Hijack-GAN

Hijack-GAN 模型的框架如下所示,该框架可以分为两部分,图片的左边部分训练一个代理模型,以从预先训练的模型中提取信息,绕过访问预先训练的模型的梯度,图片的右边部分表示在梯度的引导下生成可控制性的噪声向量。

2.1 问题描述

考虑将噪声 映射到真实图像 的生成器 ,以及将图像 映射到属性空间 的一个或多个任务模型 。在该论文中作者的目标是将在噪声空间 中找到轨迹 ,使得当沿着该路径遍历时,可以逐渐实现 GAN 模型的可控制性,具体的公式如下:

其中 是损失函数,并且模型的参数和训练数据是不可访问的,这使得优化方法无法直接求解。
2.2 非线性遍历
在该论文中作者首先训练一个代理模型来从模型中提取信息,利用数据对 来训练代理模型,使其能够将输入噪声映射到属性空间;为了避开直接访问梯度,同时保持了解属性和噪声之间的关系,作者直接计算代理模型 相对于输入噪声 的雅可比矩阵:

其中 表示代理预测的第 个属性。矩阵 的每一行向量表示为 ,该属性表示为相应属性变化最快的方向;鉴于此,作者设计了一种算法,在向量 的指导下迭代更新噪声的位置:

其中 表示为决定更新速度的超参数,通过反复计算以上迭代公式,在每一步中,生成的图像 中的目标属性将被逐渐修改,尽管 GAN 是黑盒的但仍然能够对图像生成的进行控制。
2.3 正交约束
在许多情况下,图像属性可能会所相互关联的,这意味着如果只沿着迭代等式中最速方向变化,其他非目标属性也会相应发生变化。为了缓解这个问题,作者提出了正交约束条件。因为每一行向量 表示对某些属性影响最大的一个方向,其目标是找到一个与目标方向 有最大内积的向量正交于其他非目标方向 。其中目标函数和约束条件如下所示:

其中 是求解的最优方向向量, 矩阵的每一行由属性向量  组成。 


实验结果 


3.1 属性控制

下图比较了论文中的方法, 与线性方法在 上编辑 4 个属性的效果。这三种方法都成功地编辑属性,但论文中的方法产生的失真要小得多。线性方法无法编辑微笑属性。与 相比,论文中的方法保留了更多的非目标内容,这验证了相比而言论文中的迭代方法的更具优势。



下图显示了论文中的方法可以在大多数属性上快速改变目标属性,尤其是在罕见的属性上,如金发、苍白的皮肤和狭窄的眼睛这些属性上。这个结果与论文中的假设一致,即噪声空间中并非所有属性都呈线性分布。



如下图所示,作者可视化了对稀有属性的操控,证实了论文方法的有效性。除了有效的操作之外,还可以看到所有方法的非目标属性在操作过程中都发生了变化。



下图分别展示了 上的结果。 上,论文中的方法很好地保留了非目标属性,并有效地修改了目标属性。 上,所有的方法都成功地编辑了属性,而论文的方法看起来更接近输入。这些结果表明,论文中约束方法可以有效地编辑目标属性,同时保留其他属性。 



下图显示所有的方法在几乎所有的属性上都达到了最高的比率,验证了非线性迭代方案不仅提高了属性操作,而且有助于属性保存。 



下表给出了 的评估结果。在无条件设置中,两种方法都产生相对平滑的轨迹。这可以归因于相对线性的流形,论文中的方法在条件设置中大大超过了其它方法,因为它可以很好地保留非目标属性,从而导致更平滑的转换。 


下表比较了论文的方法和 鲁棒性和误差。可以发现论文的方法更准确地逼近基础函数。由于迭代方法,即使当估计点远离初始点时,论文的方法也获得了较低的误差。


如下图所示,作者对偏角和俯角的图像进行平滑插值。当迫使姿势超过一定程度时,会发生一些伪像或不希望的变化。但利用论文中的框架后,只要它们在预先训练的 GAN 的训练数据中是可行的,就可以生成任意姿态的人脸。


下图显示了编辑鼻子和嘴的坐标时的结果。可以发现有些属性是高度相关的,例如嘴部标志与微笑高度相关。为了测量相关性,作者另外计算方向向量之间的余弦相似度相似度越高,说明纠缠度越高。作者分析了嘴部标志与微笑的相关性为 ,以及嘴部标志与性别的相关性
 



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编





🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存