Core Concepts
随着大规模视觉基础模型的发展,如何有效地重用这些大模型的知识成为了一个重要的研究课题。本文综述了近年来视觉领域中的各种高效微调技术,包括fine-tuning、prompt tuning、adapter tuning、parameter tuning和remapping tuning等方法,并对它们的优缺点进行了分析和讨论。
Abstract
本文首先介绍了视觉微调的背景知识,包括理论基础、定义、模型架构、预训练和微调等方面。
随后,文章将视觉微调技术分为五大类:
Fine-tuning: 全量微调预训练模型或仅微调任务头部。这种方法可以取得良好的性能,但随着模型规模的不断增大,存在存储和训练开销大的问题。
Prompt Tuning: 通过设计视觉提示、语言提示或视觉-语言提示,利用预训练模型的能力高效地适应下游任务。这种方法可以减少训练参数,但需要深入理解预训练任务和下游任务,并且泛化性还需进一步验证。
Adapter Tuning: 在预训练模型中插入额外的可训练参数模块,以实现参数高效的迁移学习。这种方法计算量小,可以广泛应用于不同视觉任务,但需要针对不同任务进行特定设计。
Parameter Tuning: 直接修改预训练模型的参数,如偏置项、权重等,以实现高效微调。这些方法通常需要较少的训练参数,但需要仔细设计参数修改策略。
Remapping Tuning: 通过知识蒸馏、权重重映射或架构重映射等方式,将预训练模型的知识转移到新的下游模型。这些方法可以提升下游模型的性能,但需要额外的计算开销。
文章最后讨论了这些视觉微调技术的未来研究方向,包括提高可解释性和可控性、促进模型性能的一致性等。