Kernkonzepte
MITA 提出了一种名为“中间相遇”的测试时适应新范式,通过能量优化鼓励模型和数据从相反方向进行相互适应,从而更有效地弥合模型分布与数据特征之间的差距,提升模型泛化能力。
Zusammenfassung
MITA:弥合模型与数据之间的差距,实现测试时适应
测试时适应 (TTA) 已成为一种很有前景的模型泛化能力增强范式。然而,现有的主流 TTA 方法主要在批次级别运作,在复杂的现实场景中,尤其是在面对异常值或混合分布时,往往表现不佳。这是因为模型过度依赖统计模式而忽略了单个实例的独特特征,导致模型捕获的分布与数据特征之间存在差异。为了应对这一挑战,我们提出了基于“中间相遇”的测试时适应方法 (MITA),该方法引入基于能量的优化,鼓励模型和数据从相反方向进行相互适应,从而在中间相遇。MITA 开创了一种与传统方法截然不同的新范式,传统方法只关注于将模型与数据对齐,而 MITA 则促进了模型分布与数据特征之间更有效的弥合。在三种不同场景(异常值、混合和纯分布)下对 MITA 进行的综合实验表明,它优于 SOTA 方法,突出了其在实际应用中显著增强泛化能力的潜力。
测试时适应 (TTA) (Liang et al., 2023) 越来越多地成为一种很有前景的范式,为增强分布偏移下的泛化能力提供了一种有效的解决方案 (Jordan & Mitchell, 2015)。TTA 利用未标记的测试数据在测试阶段增强训练模型的泛化能力,无需访问训练数据和过程,这对于训练细节通常是专有或资源受限的大型开源模型特别有利 (Touvron et al., 2023)。
现有的 TTA 方法通常分为两类:批次级别适应和实例级别适应。批次级别适应是主流范式,它根据 BatchNorm 中的对齐统计数据等目标 (Ioffe & Szegedy, 2015; Schneider et al., 2020),调整训练模型以使其与一批测试样本的统计模式保持一致。然而,在复杂的现实场景中,尤其是在面对异常值或混合分布时,它们往往表现不佳。如图 1(a) 所示,在主要分布中存在异常样本的情况下,所有研究方法的性能都会下降,低于未经适应的源模型专门针对这些异常实例所获得的性能。图 1(b) 也显示了类似的现象,其中两种分布均匀混合。出现这个问题的原因是模型过度依赖整体统计模式,而不是每个实例的独特属性,导致模型捕获的分布与测试数据的实际分布之间存在差异。
实例级别适应 (Zhang et al., 2022) 可以减轻上述限制,它通过分别调整每个实例的模型来针对实例的独特特征。然而,它的计算量很大 (Niu et al., 2022),并且由于无法访问统计知识,其性能可能欠佳 (Niu et al., 2023)。
总的来说,如何弥合模型与数据之间的差距,即在仍然利用统计知识优势的同时,有效地将模型与实例特定的特征对齐,仍然是一个有待解决的问题。
为了应对上述挑战,我们提出了基于“中间相遇”的测试时适应方法,即 MITA,该方法使模型和数据能够从相反方向进行相互适应,从而鼓励它们在中间相遇。具体来说,MITA 将源模型重新解释为基于能量的模型,然后进行以下两部分:模型适应和数据适应。模型适应使用对比散度 (Hinton, 2002) 作为适应目标,为模型注入对测试数据分布的感知。获得的感知使模型能够具备生成能力。对于数据适应,我们利用新发现的生成能力,通过朗之万动力学 (Welling & Teh, 2011) 为批次内的每个实例引入动态自更新机制,使其进一步与模型保持一致。
基于这些,MITA 不仅可以保持批次级别 TTA 固有的统计知识和效率,还可以感知每个实例。如图 2 所示,与之前仅关注于将模型与数据对齐的批次级别和实例级别 TTA 不同,MITA 开创了一种相互适应的创新范式,以弥合模型与数据之间的差距。在三种不同场景(异常值、混合和纯分布)下对 MITA 进行的广泛实验表明,与 SOTA 方法相比,它具有优越的性能。全面的消融研究和可视化进一步突出了其显著增强泛化能力的潜力。
我们的主要贡献包括:
一种很有前景的范式:据我们所知,我们是第一个开创相互适应范式的,这与传统上只关注于将模型与数据对齐的方法截然不同。
一种创新的方法:我们提出了 MITA,它引入了基于能量的优化,鼓励模型和数据从相反方向进行相互适应,从而在中间相遇。
可靠的实验:广泛的实验表明,MITA 在三种不同场景下均优于基线,例如,在异常值场景下,性能提升高达 10.57%,在混合场景下,性能提升高达 4.68%。