핵심 개념
視覚インストラクションデータセット内の冗長性を解消するため、TIVEアプローチが効果的であることを示す。
통계
画像キャプション(IC):CC3Mデータセットが使用されている。
オープンエンドビジュアル質問回答(OE-VQA):VQAv2データセットが使用されている。
マルチチョイスビジュアル質問回答(MC-VQA):A-OKVQAデータセットが使用されている。
参照表現理解(REC):RefCOCOデータセットが使用されている。
ビジュアル会話(VC):LLaVA-1.0からVCデータが使用されている。
인용구
"大量のダウンストリームマルチモーダルベンチマークで我々の手法は競争力あるパフォーマンスを実現しています。"
"我々はMLLM用に複数高度に異なるビジュアルインストラクションデータセットから冗長性を排除する初めての研究です。"