本研究では、ビジョン・言語モデル(VLM)の汎用性を高めるための手法を提案している。
まず、VLMの事前学習時のデータ分布と、テストデータの分布の違いが性能低下の原因となることを指摘する。従来の手法では、テスト時にプロンプトを動的に調整することで対応していたが、クラス間の分布の違いを考慮していなかった。
そこで本手法では、以下の2つの取り組みを行う:
これらの取り組みにより、ドメイン間のギャップを効果的に埋めることができ、ベースラインと比べて高い汎用性を示すことができた。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Anant Khande... at arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07520.pdfDeeper Inquiries