Core Concepts
現在の最先端の大規模多モーダルモデルは、意図的なアクティビティから意図しないアクティビティへの遷移に関する推論能力に幻覚を抱えており、新しいDoTプロンプト技術がこれらの課題を克服し、より優れた推論を実現している。
Abstract
この研究では、ビデオ内で発生する意図しないアクションに対する理解に焦点を当て、ゼロショットシナリオ下での推論タスクとして問題を形式化します。既存の大規模多モーダルモデルとプロンプト技術の推論能力を分析し、幻覚に対処するために提案されたDoTプロンプト技術がこれらの手法を上回ることを示します。さらに、提案手法が既存手法よりも優れた結果を示すことが明らかになりました。
Stats
現在使用されている大規模多モーダルモデルは幻覚に苦しんでおり、DoTプロンプト技術はこれらの幻覚を最小限に抑えつつ標準的なプロンプトよりも優れた結果を出しています。
DoTプロンプト技術は基本的なプロンプトよりも約4%高い性能を示しています。
ビデオChatGPTはFIBおよびMCQスタイルの提示方法で一貫して良好なパフォーマンスを示しています。
DoT提示方法は既存手法(CoT)よりも性能が向上し、標準偏差が低くなっています。
DoT提示方法は基本的な提示方法と比較して地面事実と一貫した答え方が得られています。
Quotes
"提案されたDoT提示方法は既存手法(CoT)よりも性能が向上し、標準偏差が低くなっています。"
"DoT提示方法は基本的な提示方法と比較して地面事実と一貫した答え方が得られています。"