TRIBE在多真实场景下取得SOTA，确保测试时领域适应的鲁棒性

　　发布于2024-10-27　阅读（0）

扫一扫，手机访问

测试时领域适应（Test-Time Adaptation）的目的是使源域模型适应推理阶段的测试数据，在适应未知的图像损坏领域取得了出色的效果。然而，当前许多方法都缺乏对真实世界场景中测试数据流的考虑，例如：

测试数据流应当是时变分布（而非传统领域适应中的固定分布）
测试数据流可能存在局部类别相关性（而非完全独立同分布采样）
测试数据流在较长时间里仍表现全局类别不平衡

近日，华南理工、A*STAR 和港中大（深圳）团队通过大量实验证明，这些真实场景下的测试数据流会对现有方法带来巨大挑战。该团队认为，最先进方法的失败首先是由于不加区分地根据不平衡测试数据调整归一化层造成的。

为此，研究团队提出了一种创新的平衡批归一化层 (Balanced BatchNorm Layer)，以取代推理阶段的常规批归一化层。同时，他们发现仅靠自我训练（ST）在未知的测试数据流中进行学习，容易造成过度适应（伪标签类别不平衡、目标域并非固定领域）而导致在领域不断变化的情况下性能不佳。

因此，该团队建议通过锚定损失 (Anchored Loss) 对模型更新进行正则化处理，从而改进持续领域转移下的自我训练，有助于显著提升模型的鲁棒性。最终，模型 TRIBE 在四个数据集、多种真实世界测试数据流设定下稳定达到 state-of-the-art 的表现，并大幅度超越已有的先进方法。研究论文已被 AAAI 2024 接收。

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

论文链接：https://arxiv.org/abs/2309.14949

代码链接：https://github.com/Gorilla-Lab-SCUT/TRIBE

引言

深度神经网络的成功依赖于将训练好的模型推广到 i.i.d. 测试域的假设。然而，在实际应用中，分布外测试数据的鲁棒性，如不同的照明条件或恶劣天气造成的视觉损坏，是一个需要关注的问题。最近的研究显示，这种数据损失可能会严重影响预先训练好的模型的性能。重要的是，在部署前，测试数据的损坏（分布）通常是未知的，有时也不可预测。

因此，调整预训练模型以适应推理阶段的测试数据分布是一个值得价值的新课题，即测试时领域适 (TTA)。此前，TTA 主要通过分布对齐 (TTAC++, TTT++)，自监督训练 (AdaContrast) 和自训练 (Conjugate PL) 来实现，这些方法在多种视觉损坏测试数据中都带来了显著的稳健提升。

现有的测试时领域适应（TTA）方法通常基于一些严格的测试数据假设，如稳定的类别分布、样本服从独立同分布采样以及固定的领域偏移。这些假设启发了许多研究者去探究真实世界中的测试数据流，如 CoTTA、NOTE、SAR 和 RoTTA 等。

最近，对真实世界的 TTA 研究，如 SAR（ICLR 2023）和 RoTTA（CVPR 2023）主要关注局部类别不平衡和连续的领域偏移对 TTA 带来的挑战。局部类别不平衡通常是由于测试数据并非独立同分布采样而产生的。直接不加区分的领域适应将导致有偏置的分布估计。

最近有研究提出了指数式更新批归一化统计量（RoTTA）或实例级判别更新批归一化统计量（NOTE）来解决这个挑战。其研究目标是超越局部类不平衡的挑战，考虑到测试数据的总体分布可能严重失衡，类的分布也可能随着时间的推移而变化。在下图 1 中可以看到更具挑战性的场景示意图。

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

由于在推理阶段之前，测试数据中的类别流行率未知，而且模型可能会通过盲目的测试时间调整偏向于多数类别，这使得现有的 TTA 方法变得无效。根据经验观察，对于依靠当前批数据来估计全局统计量来更新归一化层的方法来说，这个问题变得尤为突出（BN, PL, TENT, CoTTA 等）。

这主要是由于：

1.当前批数据会受到局部类别不平衡的影响带来有偏置的整体分布估计；

2.从全局类别不平衡的整个测试数据中估计出单一的全局分布，全局分布很容易偏向多数类，导致内部协变量偏移。

为了避免有偏差的批归一化（BN），该团队提出了一种平衡的批归一化层（Balanced Batch Normalization Layer），即对每个单独类别的分布进行建模，并从类别分布中提取全局分布。平衡的批归一化层允许在局部和全局类别不平衡的测试数据流下得到分布的类平衡估计。

随着时间的推移，领域转移在现实世界的测试数据中经常发生，例如照明 / 天气条件的逐渐变化。这给现有的 TTA 方法带来了另一个挑战，TTA 模型可能由于过度适应到领域 A 而当从领域 A 切换到领域 B 时出现矛盾。

为了缓解过度适应到某个短时领域，CoTTA 随机还原参数，EATA 用 fisher information 对参数进行正则化约束。尽管如此，这些方法仍然没有明确解决测试数据领域中层出不穷的挑战。

本文在两分支自训练架构的基础上引入了一个锚定网络（Anchor Network）组成三网络自训练模型（Tri-Net Self-Training）。锚定网络是一个冻结的源模型，但允许通过测试样本调整批归一化层中的统计量而非参数。并提出了一个锚定损失利用锚定网络的输出来正则化教师模型的输出以避免网络过度适应到局部分布中。

最终模型结合了三网络自训练模型和平衡的批归一化层（TRI-net self-training with BalancEd normalization, TRIBE）在较为宽泛的的可调节学习率的范围里表现出一致的优越性能。在四个数据集和多种真实世界数据流下显示了大幅性能提升，展示了独一档的稳定性和鲁棒性。

方法介绍

论文方法分为三部分：

介绍真实世界下的 TTA 协议；
平衡的批归一化；
三网络自训练模型。

真实世界下的 TTA 协议

作者采用了数学概率模型对真实世界下具有局部类别不平衡和全局类别不平衡的测试数据流，以及随着时间变化的领域分布进行了建模。如下图 2 所示。

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

平衡的批归一化

为了纠正不平衡测试数据对 BN 统计量产生的估计偏置，作者提出了一个平衡批归一化层，该层为每个语义类分别维护了一对统计量，表示为：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

为了更新类别统计量，作者在伪标签预测的帮助下应用了高效的迭代更新方法，如下所示：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

通过伪标签对各个类别数据的采样点进行单独统计，并通过下式重新得到类别平衡下的整体分布统计量，以此来对齐用类别平衡的源数据学习好的特征空间。 AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

在某些特殊情况下，作者发现当类别数量较多 AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

或伪标签准确率较低 (accuracy<0.5) 的情况下，以上的类别独立的更新策略效果没那么明显。因此，他们进一步用超参数 γ 来融合类别无关更新策略和类别独立更新策略，如下式：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

通过进一步分析和观察，作者发现当 γ=1 时，整个更新策略就退化成了 RoTTA 中的 RobustBN 的更新策略，当 γ=0 时是纯粹的类别独立的更新策略，因此，当 γ 取值 0～1 时可以适应到各种情况下。

三网络自训练模型

作者在现有的学生 - 教师模型的基础上，添加了一个锚定网络分支，并引入了锚定损失来约束教师网络的预测分布。这种设计受到了 TTAC++ 的启发。TTAC++ 指出在测试数据流上仅靠自我训练会容易导致确认偏置的积累，这个问题在本文中的真实世界中的测试数据流上更加严重。TTAC++ 采用了从源域收集到的统计信息实现领域对齐正则化，但对于 Fully TTA 设定来说，这个源域信息不可收集。

同时，作者也收获了另一个启示，无监督领域对齐的成功是基于两个领域分布相对高重叠率的假设。因此，作者仅调整了 BN 统计量的冻结源域模型来对教师模型进行正则化，避免教师模型的预测分布偏离源模型的预测分布太远（这破坏了之前的两者分布高重合率的经验观测）。大量实验证明，本文中的发现与创新是正确的且鲁棒的。以下是锚定损失的表达式：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

下图展示了 TRIBE 网络的框架图：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

实验部分

论文作者在 4 个数据集上，以两种真实世界 TTA 协议为基准，对 TRIBE 进行了验证。两种真实世界 TTA 协议分别是全局类分布固定的 GLI-TTA-F 和全局类分布不固定的 GLI-TTA-V。

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

上表展示了 CIFAR10-C 数据集两种协议不同不平衡系数下的表现，可以得到以下结论：

1.只有 LAME, TTAC, NOTE, RoTTA 和论文提出的 TRIBE 超过了 TEST 的基准线，表明了真实测试流下更加鲁棒的 TTA 方法的必要性。

2.全局类别不平衡对现有的 TTA 方法带来了巨大挑战，如先前的 SOTA 方法 RoTTA 在 I.F.=1 时表现为错误率 25.20% 但在 I.F.=200 时错误率升到了 32.45%，相比之下，TRIBE 能稳定地展示相对较好的性能。

3. TRIBE 的一致性具有绝对优势，超越了先前的所有方法，并在全局类别平衡的设定下 (I.F.=1) 超越先前 SOTA (TTAC) 约 7%，在更加困难的全局类别不平衡 (I.F.=200) 的设定下获得了约 13% 的性能提升。

4.从 I.F.=10 到 I.F.=200，其他 TTA 方法随着不平衡度增加，呈现性能下跌的趋势。而 TRIBE 能维持较为稳定的性能表现。这归因于引入了平衡批归一化层，更好地考虑了严重的类别不平衡和锚定损失，这避免了跨不同领域的过度适应。

更多数据集的结果可查阅论文原文。

此外，表 4 展示了详细的模块化消融，有以下几个观测性结论：

AAAI 2024 | 测试时领域适应的鲁棒性得以保证，TRIBE在多真实场景下达到SOTA

1.仅将 BN 替换成平衡批归一化层 (Balanced BN)，不更新任何模型参数，只通过 forward 更新 BN 统计量，就能带来 10.24% (44.62 -> 34.28) 的性能提升，并超越了 Robust BN 的错误率 41.97%。

2.Anchored Loss 结合 Self-Training，无论是在之前 BN 结构下还是最新的 Balanced BN 结构下，都得到了性能的提升，并超越了 EMA Model 的正则化效果。

本文的其余部分和长达 9 页的附录最终呈现了 17 个详细表格结果，从多个维度展示了 TRIBE 的稳定性、鲁棒性和优越性。附录中也含有对平衡批归一化层的更加详细的理论推导和解释。

总结和展望

为应对真实世界中 non-i.i.d. 测试数据流、全局类不平衡和持续的领域转移等诸多挑战，研究团队深入探索了如何改进测试时领域适应算法的鲁棒性。为了适应不平衡的测试数据，作者提出了一个平衡批归一化层（Balanced Batchnorm Layer），以实现对统计量的无偏估计，进而提出了一种包含学生网络、教师网络和锚定网络的三层网络结构，以规范基于自我训练的 TTA。

但本文仍然存在不足和改进的空间，由于大量的实验和出发点都基于分类任务和 BN 模块，因此对于其他任务和基于 Transformer 模型的适配程度仍然未知。这些问题值得后续工作进一步研究和探索。

本文转载于：https://www.jiqizhixin.com/articles/2023-12-25 如有侵犯，请联系admin@zhengruan.com删除

上一篇：win10更新后c盘满了

下一篇：win7显示器模糊调节方法

产品推荐

售后无忧
立即购买>

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

￥150.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

￥198.00
office旗舰店
售后无忧
立即购买>

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

￥189.00
office旗舰店
售后无忧
立即购买>

CorelDRAW X8 简体中文【标准版 + Win】

￥1788.00
office旗舰店

正版软件

新的微软与IDC报告显示：每1美元的AI投资能够带来3.5美元的回报

微软与IDC联合发布一项研究报告，深入探讨AI在企业中的应用和商业价值。其中，71％的受访者表示已经在使用AI，企业部署AI后平均14个月获得投资回报，每一美元投资可带来3.5美元回报；52%的受访者表示缺乏熟练劳动力是实施和扩展AI的最大障碍。此外，研究发现AI在员工体验、客户互动和内部业务流程等领域带来了诸多创新突破。随着AI智能科技在社会中的广泛应用，对经济所产生的影响也变得越来越大。如今，各类组织逐渐认识到AI智能科技带来的巨大变革。然而，在投资AI智能科技时，商业意义与价值成为了决策关键。企业领

12分钟前微软人工智能生成式AI 0
正版软件

长城汽车拓展新能源市场，计划扩大直营门店网络

长城汽车计划在4S店销售模式之外开设新能源直营门店，以探索新的销售路径。据悉，该公司已开始招聘相关人才。长城汽车在过去几年中曾试图推动经销商参与建设更多元化的销售渠道，如商超店和2S店等。然而，这些举措并未达到公司的预期效果。随着新能源汽车市场的快速发展，去年长城旗下五大品牌共推出了10款新能源车型。然而，目前长城汽车的大部分经销商网络主要集中在低线城市和高线城市的非核心区域，这给新能源产品的市场推广带来了一定的障碍。为了克服这个问题，长城汽车需要重新调整经销商网络布局，将重点放在核心城市和市场潜力较大的

22分钟前长城汽车 0
正版软件

语言模型在MIT最新研究中实现了基于代码的「视觉」表征训练

只会「看书」的大语言模型，有现实世界的视觉感知力吗？通过对字符串之间的关系进行建模，关于视觉世界，语言模型到底能学会什么？最近，麻省理工学院计算机科学与人工智能实验室（MITCSAIL）的研究人员对语言模型进行了评估，重点是其视觉能力。他们通过要求模型生成和识别出越来越复杂的视觉概念，从简单形状和物体到复杂场景，来测试模型的能力。研究人员还展示了如何使用纯文本模型训练一个初步的视觉表征学习系统。通过这项研究，他们为进一步发展和改进视觉表征学习系统奠定了基础。论文链接：https://arxiv.org/a

37分钟前模型训练 0
正版软件

上汽大众ID.家族逆袭，实现单月销量破万，成为新能源市场的成功者

2月1日消息，尽管受到多重因素影响，纯电动车市场整体环比下降近35%，但上汽大众ID.家族在2024年1月却实现了单月销量破万的佳绩。这一成绩展示了ID.系列在新能源市场中的强劲实力和稳定地位。尽管年底销量翘尾效应和新能源购置税政策收紧对整体市场造成了影响，但上汽大众ID.家族仍然取得了令人瞩目的成绩。这显示了ID.系列车型的吸引力和市场需求的稳定性。在上汽大众ID.家族中，ID.3车型在1月份的销售表现尤为出色，成为销售的主力。最近，该车推出了改款车型，售价区间为16.3888—18.0888万元。新款

52分钟前上汽大众 0
正版软件

探究NVIDIA的大型推理框架：TensorRT-LLM解密

一、TensorRT-LLM的产品定位TensorRT-LLM是NVIDIA为大型语言模型（LLM）开发的可扩展推理方案。它基于TensorRT深度学习编译框架构建、编译和执行计算图，并借鉴了FastTransformer中高效的Kernels实现。此外，它还利用NCCL实现设备间的通信。开发者可以根据技术发展和需求差异，定制算子以满足特定需求，例如基于cutlass开发定制的GEMM。TensorRT-LLM是NVIDIA官方推理方案，致力于提供高性能并不断完善其实用性。TensorRT-LLM在Git

1小时前 20:45 NVIDIA 大模型推理框架 0

TRIBE在多真实场景下取得SOTA，确保测试时领域适应的鲁棒性

产品推荐

最新发布

相关推荐

热门关注