专业的编程技术博客社区

网站首页 > 博客文章 正文

干货!基于标签传播的域自适应(标签领域)

baijin 2024-09-05 11:20:28 博客文章 4 ℃ 0 评论

机器学习中的一个核心问题是域适应。与过去的理论上不同,本文通过对不同域之间子类的分布变化进行建模,提出了关于域适应的新模型。基于这个模型,本文给出了标签传播算法的理论保障,并进一步启发了基于标签传播的域适应算法设计,在多个数据集中较已有算法取得了显著提升。


蔡天乐:普林斯顿大学一年级PhD,研究方向为基于理论的机器学习算法设计。

个人主页:https://tianle.website/


01

背景——distribution shift介绍


在机器学习中,使用训练集对模型进行训练,使用测试集对模型训练的效果进行测试。实际应用中,训练集和测试集往往取自不同的分布,训练集和测试集之间的分布差异(distribution shifts)直接影响了模型的泛化能力。域适应问题希望在数据集分布不同的情况下仍然能够泛化。对于不同的分布差异,域适应问题有着不同的训练目标。


比如在DomainNet数据集,每一列的图像都属于同一类别,每一行的图像属于同一图像风格。我们的目标就是能够基于任意一个图像风格进行训练,而在其他图像风格进行测试时,仍然能够准确的类别预测。



还有下面的BREEDS数据集,源域和目标域中同一类的数据取自这一类别的不同子类导致了distribution shifts,我们的目标则变为了让分类器适应各种子类。



下图是WILDS-FmoW数据集,它体现了由时间引起的distribution shifts,我们希望在历史数据中学习得到的模型在新的环境下仍然能有不错的表现。



02

应对distribution shifts的方法


传统方法——Reweight/Resample


假设给定样本x,标签y的条件分布在源域(source)和目标域(target)是一致的。

只有源域和目标域的样本分布不一致,那我们就可以通过改变源域样本的权重,使得源域的loss接近目标域的loss。如此便可以在源域上训练的模型达到目标域训练的效果。


下面是求目标域样本权重的一些优化算法,需要注意的是,只有当目标域和源域的分布差异不是很大时,Reweight/Resample的方法才有效。




本文方法


Subpopulation shift:

将源域和目标域按照不同的特征分割多个不相交的子群类或亚种,称为subpopulation。Subpopulation的应用很常见,比如麻雀有不同的颜色,其实是因为来自不同的亚种。使用数学表示分别为

每一对Si和Ti都有一定的相关性。例如源域上描述“狮子狗吃狗粮”,目标域上描述“拉布拉多犬吃肉”,这两个描述就是有一些精细的区别,但又互相联系的亚种。本文工作的思路是将源域和目标域划分为差别较小但互相联系的subpopulation shift。


算法基本思想:

假设在源域上有一个可能含噪教师分类器,我们的目标是在无标签数据上,将噪声分类器给出的标签信息从源域到目标域进行传播。在下图示例中,虚线圆圈表示目标域的亚种,实线圆圈表示源域的亚种,每一对有重合的源域和目标域亚种表示有差异且相互联系的关系。


标签传播的思想是将所学的分类器加上一个一致性正则化(Consistency Regularization),即对分类器对邻域的一致性进行正则化,最终使得分类器在目标域上有一个不错的表现。



算法推广:

本文的标签传播的域适应方法可以推广到更多的适用范围中,像无监督域适应,半监督学习、自监督去噪等,下图描述了不同适用范围的源域和目标域的重合关系,(a)到(e)这五种情况使用于本文一致性正则化的标签传播方法。


03

实 验


首先本文在BREEDS数据集上考察了Consistency Regularization方法在域适应上的有效性,具体的,使用了现有的Consistency Regularization方法——FixMatch。


下图是本文算法(FixMatch)与传统的Distribution Matching的方法实验对比,本文算法在目标域上的准确度相比传统Distribution Matching方法高了9到11个点,有了很大程度的提升,证明了Subpopulation思想和将Consistency Regularization方法用于分类器的标签传播方法对于域自适应的有效性。

下面的实验对比Distribution Matching原方法和在Distribution Matching的方法加上Consistency Regularization方法的域自适应效果。可以看到即使是在Distribution Matching的方法上加Consistency Regularization方法也是有一定提升的,因此证明了Consistency Regularization方法在域自适应问题上的有效性。


04

总 结


本文通过提出Subpopulation shift的思想,使用Consistency Regularization方法进行域自适应,并取得了显著的成果。实验表明,基于一致性的方法对域自适应有正向作用,特别是在Subpopulation shift问题上。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表