本論文では、LLaMA-Adapter と呼ばれる効率的なファインチューニング手法を提案している。LLaMA-Adapter は、LLaMA 7B モデルを効率的にファインチューニングし、高品質な指示応答を生成することができる。
具体的には以下の特徴がある:
ファインチューニングの際は、52Kの自己指示データを使用し、LLaMAの最後の30層にアダプタを挿入する。ゼロ初期化アテンションメカニズムにより、学習初期の不安定さを抑え、LLaMAの知識を保ちつつ、新しい指示情報を段階的に注入することができる。
提案手法は、言語指示応答のみならず、マルチモーダルな推論タスクでも優れた性能を発揮する。ScienceQAやMME、MMBench、LVLM-eHubなどのベンチマークで高スコアを記録している。
さらに、ViT、RoBERTa、CLIPなどの他の大規模モデルのファインチューニングにも適用可能であり、パラメータ効率の良さと汎用性の高さを示している。
Para Outro Idioma
do conteúdo original
arxiv.org
Principais Insights Extraídos De
by Renrui Zhang... às arxiv.org 09-20-2024
https://arxiv.org/pdf/2303.16199.pdfPerguntas Mais Profundas