大規模言語モデル(LLMs)の進歩により、Chain of Thought(CoT)アプローチが注目されています。本研究では、マルチモーダルタスクにおけるLLMsの能力向上を目指して、新しいアプローチを導入しました。このアプローチは、リトリーバルメカニズムを活用して適切なデモンストレーション例を動的かつ自動的に選抳し、テキストと画像間のモダリティ接続を強調しています。さらに、Stratified Samplingを導入することで、多様性と包括性のあるデモンストレーション例セットを提供しています。実験結果は、提案手法が既存の最先端モデルを上回っていることを示しており、LLMsのマルチモーダル推論能力向上への有効性が確認されています。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Bingshuai Li... في arxiv.org 03-05-2024
https://arxiv.org/pdf/2312.01714.pdfاستفسارات أعمق