この記事は、NLPモデルがマルチリンガルおよびマルチモーダリティをサポートし、視覚推論タスクでの評価を通じてその能力を評価しています。GPT-4Vなどのプロプライエタリシステムは現在このタスクで最高のパフォーマンスを発揮していますが、オープンモデルは比較的遅れています。研究では、多言語性、複雑な推論、およびマルチモダリティという3つの難しい側面が特定されます。これらの課題に対処するために、翻訳-テストアプローチやビジュアルプログラミングアプローチなど3つの干渉手法が提案されています。これらの干渉は、ゼロショット設定でこのタスクにおける最高のオープンモデルLLaVAのパフォーマンスを向上させました。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문