この論文では、CATが動的なオーディオビジュアルシナリオでの質問に対する正確な回答を提供するために開発されました。CATはクエスチョン関連の手がかりを集約し、詳細な知識を豊かにし、MLMが必要とする理由を補完しています。さらに、音声とビデオを含むデータセットを混合し、MLMのマルチモーダル理解力を向上させています。不明瞭な記述を排除し、特定の音声ビジュアルオブジェクトへのより正確な応答能力を向上させるためにAI支援の曖昧性認識直接選好最適化戦略も提案されています。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Qilang Ye,Zi... ที่ arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04640.pdfสอบถามเพิ่มเติม