本文研究了视觉语言模型CLIP在微调过程中存在的过度拟合已知类别的问题。作者首先通过实验发现,即使经过长时间的微调,CLIP模型也会倾向于过度拟合训练集中的已知类别,从而导致在未知类别上的性能下降。
为了解决这一问题,作者提出了一种新的方法OGEN。其核心包括两个部分:
类条件特征生成器:给定未知类别的名称,该生成器可以合成相应的图像特征。这些合成的特征可以为模型提供关于未知类别的有用知识,从而帮助优化模型在已知和未知类别之间的决策边界。
自适应蒸馏机制:在联合优化已知和合成未知特征的过程中,该机制可以从历史模型状态中选择合适的教师模型,以进一步防止过拟合的发生。
实验结果表明,OGEN方法可以在保持已知类别性能的同时,显著提高模型在未知类别上的泛化能力。在两种不同的OOD泛化设置(类内和跨数据集)下,OGEN都取得了优异的性能。
Naar een andere taal
vanuit de broninhoud
arxiv.org
Belangrijkste Inzichten Gedestilleerd Uit
by Yuhang Zang,... om arxiv.org 04-17-2024
https://arxiv.org/pdf/2401.15914.pdfDiepere vragen