查看原文
其他

几何梯度分析神经网络中不可信预测性

尹娟 PaperWeekly 2022-07-04

©PaperWeekly 原创 · 作者 | 尹娟
学校 | 北京理工大学博士生
研究方向 | 随机过程、复杂网络单位


引言

该论文是关于深度学习理论性的文章,要知道深度神经网络经常会对样本分布之外的数据和对抗样本会出现不可预测性。在该论文中作者提出了一个几何梯度分析(GGA)来提高识别模型不可信的预测,该分析方法不需要重新训练给定的模型。基于神经网络各自输入的 来分析神经网络损失的几何特征。作者还提供了梯度的几何性质和损失函数的局部最小值之间的理论联系。



论文标题:

Identifying Untrustworthy Predictions in Neural Networks by Geometric Gradient Analysis


论文链接:

https://arxiv.org/abs/2102.12196



几何梯度分析

表示在一个监督分类任务中输入样本 及其对应的类标签 。用 表示由参数向量 参数化的神经网络,用 表示神经网络对给定样本  预测的类别。定义 为神经网络的损失函数。将 定义为给定样本 的第 表示为:

其中 表示符号函数。忽略对 的依赖性,对于给定的样本 ,余弦相似矩阵 被定义为:

其中 ,并且 表示 这两个 图之间的余弦相似度。与以前仅依赖于预测类别的显著性的方法相比,几何梯度分析考虑了所有可能的输出类别的 之间的几何属性。同时考虑多个 使得几何梯度攻击检测器更难被攻击。为了欺骗训练好的神经网络和几何梯度测器,攻击者必须在保留所有输出类别的 之间的几何属性中同时造成错误分类。
在神经网络训练成熟之后,正确分类的输入 大部分被映射到预测类别 的局部最小值中,对于这些正确分类的样本,非预测类 指向远离局部最小值的地方,并且呈现出高的平均余弦值。相反,错误分类的样本远离这些局部最优值的附近,并且对于不同的类别显示不同的 ,因此 的平均余弦相似性较低并且方差较大。

损失函数局部极小的充要条件:为了进一步推动神经网络输入空间中梯度几何的分析,作者引入了一个性质,能够识别给定的数据点是否位于损失中的局部极小值上。

定理1: 被定义为:

当且仅当:

的局部最小值中。
引理1: 是一个 并且 是函数 的局部最小值点。则有:

证明:在 点进行泰勒展开,则有:

进一步化简可得:

如果 是局部最小值点,则有:

引理2: 是一个 。对于所有的向量 ,则有:

证明:计算:

其中 表示是 的海森矩阵。因为 是一个 ,当 时, 收敛到

将引理1代入到 ,存在点 ,则:

其中 ,因为 是连续的,则此时可知 。计算:

如果这个表达式对于收敛到 的所有 x 都是渐近非负的,对于任意的 ,有 ,定义

因为 是任意的,这意味着 是损失函数 的局部最小值。


实验设置

为了用 方法识别模型不可信的预测,首先为给定的样本   生成相应的 。然后从 中计算简单的特征,并使用它们来训练样本分布之外的点。对于给定的样本 ,假设 是与神经网络 类的下标索引。通过利用余弦相似矩阵 的对称性,并可以观察到该矩阵主对角线的元素都等于 。作者对两个不同的集合 计算五个基本特征,分别是平均值、最大值、最小值、标准偏差和能量,其中
作者使用基于 的有目标攻击来最大化随机目标类的损失,这种攻击可能导致所有其他类别的相似显著图,因为攻击将优化输入,使目标类别的损失达到局部最小值。作者利用均方误差和分类交叉熵损失来攻击。对所有目标攻击使用了相同的步长 和 100 次攻击迭代。作者添加余弦相似度目标来优化对抗扰动,使得所有非预测类 对齐。余弦相似度目标的损失由下式给出:


实验结果

如下表所示,在 中对于不同 OOD 数据和对抗攻击中所有数值的真实阳性率为 95%。可以发现,论文中所提出的 GGA 方法对所有攻击都表现出较高的识别性能。

如下表所示,所提出的 方法对所有自适应攻击都表现出很高的识别性能。有目标的 PGD 攻击比无目标的 PGD 攻击成功率高。使用 交叉熵损失进行目标攻击更有效。通过余弦相似性攻击 ,可以成功地增加余弦相似性矩阵中非预测类之间的余弦相似性。
余弦相似度目标的权重越高,错误分类越少,反之亦然。 攻击只能导致分别对 数据集的 10000 个样本中的 561、1354 和 857 个样本进行错误分类。相比之下,无目标和有目标 攻击的成功率为 100%,导致所有数据集的 10000 幅图像全部被错误分类。

如下图所示,分类器的预测标签是彩色编码的,其中橙色的部分对应于真实类别,而蓝色的部分对应于对抗攻击后预测的类别。在决策边界附近,当不同类别的 之间的梯度方向开始发散时, 会发生特征波动。由此可以看出, 的平均值是分类器决策的稳定指标。

如下表所示为使用的相同的对抗攻击和异常数据的检测性能,这些数据仅使用前 个预测进行计算。可以发现即使只有5%的原始 用于计算 ,所有检测任务的性能也仅略微下降。可以观察到预测类别和非预测类别的梯度之间的余弦相似性对于检测不可信的预测来说是足够的。

更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编





🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存