コンピュータビジョンと自然言語処理の領域で、大規模ビジョン-言語モデル(LVLM)は、視覚入力に基づいてテキスト記述を生成することに優れたツールとして不可欠である。しかし、LVLMが生成する内容は、入力画像よりも事前に学習された大規模言語モデル(LLM)の影響を受けていることが明らかになっています。このバイアスを解消し、モデルの焦点をビジョン情報に向けるために、トレーニングフリーな2つの戦略が導入されました。これらの戦略は、バイアスを軽減し、幻想を最小限に抑えるだけでなく、より有益で正確なイラストレーションの生成に貢献します。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania