Core Concepts
MLLMのバイアスを軽減し、視覚情報への基盤を向上させるためにBootstrapped Preference Optimization(BPO)が効果的である。
Abstract
MLLMは視覚入力に基づいて応答を生成する際にバイアスに苦しむ。
BPOはネガティブな応答を自身からブートストラップしてペアリングし、MLLMの視覚情報への基盤を強化する。
実験結果では、BPOが複数のベンチマークで顕著な性能向上をもたらすことが示されている。
未解決の問題として、悪意ある入力や低品質データの取捨選択が挙げられている。
Stats
マルチモーダル大言語モデル(MLLM)はバイアスに苦しんでいる (Abstract)
MLLMは画像入力に基づく応答生成時にエラーまたは幻想的な応答を生じやすい (Introduction)
BPOは事前トレーニングバイアスを抑制し、視覚情報への基盤を向上させる (Bootstrapped Preference Learning)
Quotes
"MLLMs often generate non-existent objects, incorrectly identify attributes such as shape or color, or provide inaccurate object counts."
"Our approach leads to significant performance improvements across multiple benchmarks and advancing the state-of-the-art in multimodal conversational systems."