大規模言語モデル(LLMs)の進歩により、Chain of Thought(CoT)アプローチが注目されています。本研究では、マルチモーダルタスクにおけるLLMsの能力向上を目指して、新しいアプローチを導入しました。このアプローチは、リトリーバルメカニズムを活用して適切なデモンストレーション例を動的かつ自動的に選抳し、テキストと画像間のモダリティ接続を強調しています。さらに、Stratified Samplingを導入することで、多様性と包括性のあるデモンストレーション例セットを提供しています。実験結果は、提案手法が既存の最先端モデルを上回っていることを示しており、LLMsのマルチモーダル推論能力向上への有効性が確認されています。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問