专业的编程技术博客社区

网站首页 > 博客文章 正文

使用具有差分隐私的认证鲁棒性抵御对抗性示例

baijin 2024-11-09 11:06:19 博客文章 4 ℃ 0 评论

引用:

Lecuyer Mathias, Atlidakis Vaggelis, Geambasu Roxana, et al. Certified Robustness to Adversarial Examples with Differential Privacy[C]. ieee symposium on security and privacy, 2019: 656-672.

摘要:

欺骗机器学习模型,特别是深层神经网络的对抗性示例,一直是热门的研究课题,对抗性示例攻击和防御的研究彼此发展。过去的大多数防御机制即便尽力而为,也已证明容易受到复杂的攻击。最近,一组经过认证的防御措施被引入,它们保证了对有界攻击的鲁棒性。然而,这些防御要么不能扩展到大型数据集,要么仅限于它们所能支持的模型类型。本文介绍了首个可扩展到大型网络和数据集(如 Google 的 ImageNet 初始网络),并广泛应用于任意模型类型的防御方案。差分隐私是来自密码学的隐私形式,可以为对抗性示例防御提供严格、通用、灵活的基础。我们的防御机制称为 PixelDP,它基于防御对抗性示例的鲁棒性与差分隐私的新型连接。

1.引言

深度神经网络(DNN)在许多机器学习任务中表现出色,但近年来,DNN 很容易受到各种攻击。在这些攻击中,包括对抗性示例攻击,这种攻击会对安全要求高的应用程序构成严重威胁。自提出对抗性示例以来,也已提出了许多攻击和防御机制,其中的防御机制或者经验证仍很容易受到攻击,或者难以扩展到大规模的数据应用当中。本文提出了新方法 PixelDP,为模型提供针对对抗性示例的鲁棒性,该方法具有很好的适用性、通用性和可扩展性。

2.DP-鲁棒 连接

2.1对抗性 ML背景

对抗性示例是针对 ML 模型的一类攻击。攻击者对给定的、固定的输入进行微小的修改,却能大幅更改预测值。如果输入是 x,则用 x+α 表示该输入的对抗版本,其中 α 是攻击者引入的更改或扰动。如果 x 是图像的像素向量,那么 xi 表示图像中的第 i 个像素,αi 表示对第 i 个像素的更改。

鲁棒性定义:如果预测模型的输出,对训练过程中任何合理的输入微小变化不敏感,则可认为预测模型对对抗性示例具有鲁棒性。

2.2 DP背景

DP 关注的是:数据集上的计算输出是否会泄露其中的记录。为了防止这种信息泄漏,在计算中引入了随机性来隐藏单个记录的细节。

设随机算法 A 中,数据集 d 为输入,空间 O 为输出值,如果在数据集上汉明度量 ρ 下,数据集 d 和 d’中 ρ(d,d’)≤1,任何子集 S? O,以及量化隐私保障系数 ε>0,δ∈[0,1],满足:

那么称该算法、数据集和输出空间满足标准(ε,δ)-DP。

在标准 DP 定义中,度量 ρ 是汉明度量,用于计算两个数据集中不同的条目数。(ε,δ)-DP 保证意味着改变数据集中的单个条目不能很大程度上改变输出分布。

DP 具有两个关键属性:

1.应用于(ε,δ)-DP 算法输出的任何计算仍然遵循(ε,δ)-DP。

2.引理 1:期望输出稳定界。设具有有界输出 A(x)∈[0,b],b∈R+的随机函数 A,满足(ε,δ)-DP,那么输出的期望值满足:

2.3 DP-鲁棒 连接

使用 DP 实现针对对抗性示例的鲁棒性,其直觉来源于创建 DP 评分函数,以便在给定输入示例后,判断模型预测是否是与输入特征相关的 DP。

推论 1:假设随机函数 a 关于 p-范数度量满足(ε,δ)-DP,那么对于

本文使用随机(ε,δ)-PixelDP 评分函数 A(x)作为模型的评分函数,然后让模型的预测过程 f,使用 A 在 DP 噪声上的期望输出 E(a(x))作为标签概率向量。经过证明,以这种方式构建的模型允许如下针对对抗性示例的鲁棒性认证:

命题1(鲁棒性条件)假设 A 关于 p-范数度量满足(ε,δ)-PixelDP。如果对于任何输入 x,如果对于某些 k∈ K,满足

那么则称基于标签概率向量 y(x) = (E(A1(x)), . . . ,E(AK(x)))的多重分类模型,对于基于输入 x,||α||p≤1 的 α 攻击具有鲁棒性。

3.PixedlDP认证防御

3.1.结构

PixelDP 是一种认证防御方法,用于构建基于 p-范数下 DP-鲁棒连接对有界对抗性示例的防御机制。图 1(a)是用于多类图像分类的 PixelDP DNN 体系结构。原来的构造用蓝色表示;红色的构造是 PixelDP 的结构。Q 表示原始 DNN 的评分函数,表示从图像 x 到 K 个标签 Q(x) = (y1(x), . . . , yK(x))上概率分布的确定性映射。对抗性示例的脆弱性源于 Q 对输入中 p-范数变化的无界敏感性。为了实现 DNN (ε,δ)-PixelDP,需要添加校准噪声,以将 Q 转换为符合(ε,δ)-PixelDP 标准的随机函数 AQ,该函数的预期输出对输入中 p-范数变化具有有限的敏感性。该方法通过引入噪声层(如图 1(a)中的红色所示)来实现这一点,该噪声层将零平均噪声添加到其前面的层(图 1(a)中的第 1 层)的输出中。噪声源于拉普拉斯分布或高斯分布,其标准偏差与下列两个系数成正比:(1)L,构建网络的 p-范数攻击界;(2)?, 预噪声计算(图 1(a)中的灰色框)对 p-范数输入变化的灵敏度。

训练(ε,δ)-PixelDP 网络类似于训练原始网络,也使用原始损失和优化器,如随机梯度下降。主要区别在于,该方法改变了预噪声计算,以限制其对 p-范数输入变化的敏感性,表示为 Q(x) = h(g(x)),其中 g 是预噪声计算,h 是在原始网络中计算 Q(x)过程的后续部分。我们利用 2.3 节中的已知技术,将 g 转换为另一个具有固定灵敏度的函数 g~,它具有 p-范数输入变化的固定灵敏度 ?。然后,我们将噪声层添加到 g~的输出中,以及 ? 和 L 下的标准偏差,以确保(ε,δ)-PixelDP 中 p-范数下变化大小为 L。PixelDP 网络的结果评分函数表示为:

,其中 noise(.)是实现拉普拉斯/高斯的函数。假设噪声层的放置使得 h 仅处理 g~(x)的 DP 输出,而不再次访问 x(即,从噪声前计算到噪声后计算不存在跳过层),则 DP 的后处理特性会确保 AQ(x)也满足(ε,δ)-PixelDP 对于大小 L 的 p-范数变化。

AQ(x)评分函数的期望 E^(AQ(x))可以为预测过程提供命题 1 所具有的鲁棒性,本文采用蒙特卡罗方法在预测时对其进行估计。具体为:给定输入 x,PixelDP 预测过程中会多次调用 AQ(x),并绘制新的噪声层。然后对每个标签的结果进行平均,从而计算得分期望 E(AQ(x))的估计值 E^(AQ(x))。之后计算出概率 η 下 E^(AQ(x))的 η-置信区间。最后,它将该置信区间集成到 DP 计算期望的稳定界中(引理 1),以获得敌手在 p-范数输入改变大小为 L 情况下,对标签的平均分数改变的 η-置信上界和下界,。图 1(b)说明了通过 PixelDP 预测过程后,每个标签平均分数的上限和下限。如果具有最高平均分数标签的下界,严格大于其他所有标签的上界,则概率 η 下,PixelDP 网络得出的输入 x 的预测,对 p-范数大小 L 的任意攻击具有鲁棒性。该鲁棒性验证失效概率为 1?η、 可以通过增加 AQ(x)的调用次数使其变小。

使用 PixelDP 认证检查有两种方法:(1)仅对在特定规模的攻击下,认为具有鲁棒性的预测进行操作;(2)在测试集上计算 p 范数有界攻击下,PixelDP 网络精度的下限。

3.2.DP噪声层

函数 g 的灵敏度定义:输入变化引发的最大输出变化。给定输入和输出的距离度量公式(输入输出分别为 p-范数和 q-范数):

假设可以计算 prenoise 层的灵敏度,噪声层利用拉普拉斯和高斯机制,如下所示。在每次调用输入 x 上的网络时(无论是用于训练还是预测),噪声层计算 g(x) + Z,其中 Z=(Z1,…,Zm)来自函数 noise(?,L,ε,δ)下噪声分布的独立随机变量。

拉普拉斯机制:noise(?,L,ε,δ)使用拉普拉斯分布,平均值为零,标准差为

它给出(ε,δ)-DP。

高斯机制:noise(?,L,ε,δ)使用平均值为零且标准偏差

的高斯分布;它给出(ε,δ)-DP,ε≤ 1.

L 为构造攻击界,表示 PixelDP 网络提供的(ε,δ)-DP,所对抗攻击的 p-范数大小。

计算预噪声函数 g 的灵敏度取决于选择在 DNN 中放置噪声层的位置。下面是放置噪声位置的选项:

选项 1:将噪声加入图片

选项 2:在第一层后加入噪声

选项 3:在网络中更深的位置加入噪声

选项 4:在自动编码器 Auto-encoder 中加入噪声

其中,选项 2 操作简单、规范,选项 4 具有分离 PixelDP 模型与 DNN、训练速度快等优势。

3.3训练过程

PixelDP 认证的可靠性仅依赖于在预测时强制执行 DP。为了使灵敏度在有效范围内,本文改变了预噪声计算以保持其灵敏度恒定,计算方法取决于需要绑定的灵敏度类型。

对于 ?1,1, ?1,2 或 ?∞,∞, 需要规范化线性层的列或行,并使用固定噪声方差的常规优化过程。

对于 ?2,2,需要在随机梯度下降(SGD)的每个梯度步骤之后运行投影步骤。这会使预噪声层解析为紧密帧,强制使 ?2,2= 1.

3.4.认证预测步骤

在 PixelDP 网络中,预测过程与传统 DNN 相比有两种不同。首先,它根据随机 DNN 评分函数 E^(AQ(x))期望值的蒙特卡罗估计,来选择 arg max 标签。其次,PixelDP 不仅返回 x 的预测(argmax(E^(AQ(x)))),而且还返回该预测的鲁棒性验证大小。

本文提供两种使用鲁棒性大小认证的方法:

当只对鲁棒预测的子集操作有意义时,应用程序可以在每个预测上使用 PixelDP 鲁棒性认证。第二,当所有点都必须分类时,PixelDP 给出受攻击精度的下限。与常规 ML 一样,测试集被用作获得新示例准确性。我们可以证明攻击下的最小准确度达到预测鲁棒性阈值大小 T。

4.评价

本文通过在五个标准图像分类数据集和网络(无论大小)上评估 PixelDP,并将其与一个先验防御机制和一个最大程度防御机制进行比较。

本文使用三个准确性指标来评估 PixelDP 模型:

常规精度:表示模型在测试集上的正确性:

认证精度:指在测试集上,对于给定的预测鲁棒性阈值,认证模型的预测既正确又可靠的比例:

认证示例使用精度:用于度量给定的预测鲁棒性阈值下,认证示例的正确预测数量:

攻击方法:首先对测试集中随机挑选的 1000 个样本进行攻击。然后在受攻击的测试例子上测量常规精度。

4.1问题 1:DP噪声对常规精度的影响?

针对该问题,对每个数据集训练 4 个(1.0,0.05)-PixelDP DNN,用于构造攻击界 ?∈{0.03,0.1,0.3,1}。L 值越大,则表示对攻击更高的鲁棒性和更大的噪声标准差 σ。

如表 Ⅲ 所示的常规精度表明,① 在相当低但有意义的构造攻击界限,实验中所有的 DNN 都表现出合理的精度损失。② 为更大规模的攻击构建网络会逐步降低准确性。

4.2问题 2:PixelDP 能在测试集上证明的精度?

图 2 显示了 ImageNet 和 CIFAR-10 模型的经认证的鲁棒精度界限,这些界限使用构造攻击界限 ? 的不同值进行训练。得出:① 即使在 ImageNet 的大型网络上,PixelDP 也能产生有意义的鲁棒精度边界(见图 2(a)),这证明了本文方法的可扩展性。② 针对更大的攻击构建的 PixelDP 网络倾向于对高阈值 T 产生更高的认证精度。

4.3问题 3:在受到攻击时,PixelDP 的准确性如何?与其他最大程度的认证防御相比,它的准确性如何?

攻击 ImageNet 时的准确性:首先研究 ImageNet 上 PixelDP 模型在受到攻击时的常规精度,图 3 显示了对基线 Inception-v3 模型以及三个防御版本的 2 范数攻击的度量,它们使用一个经过构造攻击界 L∈{0.1,0.3,1.0}训练的堆 PixelDP 自动编码器。PixelDP 使模型在攻击时更加健壮。对于大小为 Lattack= 0.5 的攻击,基线模型的准确率下降到 11%,L = 0.1PixelDP 模型的准确率保持在 60%以上。在 Lattack= 1.5 时,基线模型的准确率为 0,但 L = 0.1 PixelDP 仍然是 30%,而 L = 0.3 PixelDP 模型的准确率超过 39%。

与Madry相比攻击下的准确性:图 4(a)比较了 PixelDP 模型与 Madry 模型在 CIFAR-10 上的常规精度。对于 2 范数攻击,我们的模型达到了与 Madry 模型相同或略高的常规精度。与基线(无防御)模型相比,这两个模型在这种攻击下都显著地更加健壮。对于 ∞-范数攻击,我们的模型表现不佳,因为 PixelDP 模型被训练用于防御 2-范数攻击,而 Madry 模型则针对 ∞-范数攻击进行了优化。

与Robustopt 相比攻击下的准确性:如图 4(b), PixelDP 在 Lattack= 0.015(58.8% ~ 57.1%)前具有优势,之后则 RobustOpt 具有更高的准确性。

认证预测在攻击下的准确性。PixelDP 的另一个有趣特性是它能够做出可靠的预测。计算这些经过认证的预测在攻击下的准确性(我们称之为鲁棒精度),并将它们与没有提供此类认证的 Madry 网络的预测进行比较。图 5 显示了仅考虑鲁棒性高于 0.05 和 0.1 的预测结果,表明应用程序可以利用本文的理论保证过滤掉非鲁棒的预测。对于那些允许不进行少数预测的应用来说,PixelDP 在 2 范数攻击下的鲁棒预测比 Madry 的精确得多。对于需要对每个预测进行操作的应用程序,PixelDP 在的 2 范数攻击下可得到与 Madry 相当的准确性。

4.4问题 4:PixelDP 的计算开销?

PixelDP 在训练阶段增加的开销不大,但在预测增加的计算开销较多。对带有 1 个噪声的图像进行预测平均需要 0.01s。10 个需要 0.02 秒,100 个需要 0.13 秒,1000 个需要 1.23 秒。为了做出简单的预测,在实践中只需要进行 3 次预测,开销便会随之减小到原来的 3 倍。

5.结论

本文证明了对抗性示例的鲁棒性和差异隐私理论之间的联系,展示了如何利用该连接来开发针对这类攻击的认证防御:(1)与当今针对 2 范数攻击的最佳防御机制一样有效,(2)与之前的任何认证防御相比,具有更好的可扩展性并更能广泛的适用于大型网络。此外,本文方法具有巨大灵活性,利用了方便的基于自动编码器的体系结构,使得可以在有限的资源下进行实验。

致谢

本文由南京大学软件学院 2021 级硕士潘中颢翻译转述。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表