本研究では、黒箱型ビジョン言語モデル(VLM)の出力の一貫性を測定することで、モデルの好ましい画像分布を特定する新しい手法を提案した。
まず、同一の3Dオブジェクトに対して複数の画像分布(単体レンダリング、アセンブリ内透明レンダリング、ズームアセンブリレンダリング)を生成し、それぞれの分布に対してパラフレーズされた入力プロンプトを用いてVLMの出力を収集した。
次に、ROUGE/BLEU得点、BERT埋め込みのコサイン類似度、GPTベースの一貫性評価の3つの手法を用いて、各画像分布の出力一貫性を測定した。その結果、複数の視点を組み合わせた分布が最も高い一貫性を示すことが分かった。
さらに、人間の専門家による評価を通じて出力の正確性と有用性を検証し、人間フィードバックを用いたインコンテキスト学習により出力の質を向上させることができた。
最後に、CAD関連の視覚的質問応答タスクを評価するための新しいデータセット「CAD-VQA」を提案し、最先端のVLMモデルの性能ベンチマークを行った。この取り組みは、特殊な技術分野におけるVLMの能力向上に向けた重要な一歩となる。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor