本研究では、高校レベルの物理問題を含む新しいマルチモーダルデータセットであるMM-PhyQAを紹介する。このデータセットを使用して、テキストのみのLLMと、マルチモーダルLLMの性能を比較した。
結果として、テキストのみのLLMでは物理問題を適切に解答できないことが示された。一方、マルチモーダルLLMであるLLaVA-1.5は、特にMulti-Image Chain-of-Thought(MI-CoT)プロンプティングを使用した場合に高い精度を達成した。
MI-CoTプロンプティングでは、問題文に加えて関連する2つの問題と解答過程を提示することで、LLMの推論能力を向上させることができた。また、LLaVA-1.5の13億パラメータモデルがMI-CoTプロンプティングと組み合わせることで最高の精度を示した。
このように、マルチモーダル入力とChain-of-Thoughtプロンプティングの活用が、高校物理問題のような複雑な推論を必要とする課題において、LLMの性能を大幅に向上させることが明らかになった。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Avinash Anan... ที่ arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.08704.pdfสอบถามเพิ่มเติม