Core Concepts
ChatGLMからの豊富なテキスト記述を活用し、VLMをCLIPに適応させる新しい方法を提案。
Abstract
この論文では、データフリーフレームワークがマルチラベル画像認識において有効であることが示されています。ChatGLMからのテキスト記述を使用して、VLM(CLIP)を適切に調整することで、優れた結果が得られました。異なる種類のプロンプトの比較や重要性、注目すべき実験結果、パラメータ分析などが含まれています。
Stats
本研究は3つの公開データセット(MS-COCO、VOC2007、NUS-WIDE)で実験を行った。
MS-COCOでゼロショットマルチラベル認識方法よりも4.7%高いmAP値を達成した。
プロンプトタイプの比較では、階層型プロンプトが最も優れたパフォーマンスを示した。
オーダーロス関数はモデルの効果的な学習に貢献した。
ローカル学習は画像サブ領域に焦点を当てることで重要性が示された。
Quotes
"Our method provides an effective way to explore the synergies between multiple pre-trained models for visual recognition under data scarcity."
"The hierarchical prompts achieve better performance, especially on smaller objects."
"The global branch plays a more critical role, but the local branch is also necessary."