本文提出了一種名為"相似性損失"的新方法,可以在微調基礎模型的過程中保留其廣泛的泛化能力。基礎模型通過在大型和多樣的數據集上的預訓練,展現了在不同領域和分佈上的出色泛化能力。然而,通過微調這些基礎模型以適應特定的下游任務,常常會導致任務特定性能和廣泛泛化能力之間的權衡,可能損害模型處理異常分佈外(OOD)情況的能力。
作者提出的"相似性損失"方法旨在最小化微調後的嵌入與預訓練嵌入之間的失真,在任務特定適應和保留廣泛泛化能力之間達到平衡。這種方法允許在下游任務上進行訓練,而不會放棄基礎模型的強大泛化能力。
作者在兩個具有挑戰性的任務上評估了這種方法:衛星影像分類和人臉識別。這些領域非常適合評估OOD性能,因為它們固有的可變性和潛在的顯著分佈偏移。實驗集中在開放類別和領域偏移場景,全面評估了該方法在提高OOD性能方面的有效性。結果表明,該方法在顯著提高OOD性能的同時,僅略微降低了在分佈內(ID)的性能。作者提供了大量實驗和分析,展示了該方法在可能出現分佈偏移的真實世界場景中的有效性。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문