핵심 개념
LLMsと複数の知識ソースを効果的に統合する新しいモダリティ重視フレームワークであるMAILが、KVQAにおいて優れたパフォーマンスを達成します。
초록
MAILは、大規模言語モデル(LLMs)からの知識を効果的に活用し、シーングラフとコンセプトグラフを慎重に設計しています。さらに、専用の疑似シャムグラフ中間融合を提案し、異なる情報源からのマルチモーダル情報を統合しています。これにより、MAILは既存の最先端手法よりも24倍少ない計算リソースと2〜4倍高速な推論時間で優れた性能を発揮します。
통계
LLMsはGPT-4(175B)を使用しています。
MAILは7.13Bのパラメータサイズです。
1回のテスト質問あたりの推論時間は0.661秒です。
인용구
"Knowledge-based visual question answering (KVQA) has various applications, especially for assisting the visually impaired users."
"MAIL achieves superiority on two benchmark datasets while possessing 24× less computational resources and 2∼ 4× faster inferential time than the existing state-of-the-art baselines."