この論文では、CATが動的なオーディオビジュアルシナリオでの質問に対する正確な回答を提供するために開発されました。CATはクエスチョン関連の手がかりを集約し、詳細な知識を豊かにし、MLMが必要とする理由を補完しています。さらに、音声とビデオを含むデータセットを混合し、MLMのマルチモーダル理解力を向上させています。不明瞭な記述を排除し、特定の音声ビジュアルオブジェクトへのより正確な応答能力を向上させるためにAI支援の曖昧性認識直接選好最適化戦略も提案されています。
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Qilang Ye,Zi... lúc arxiv.org 03-08-2024
https://arxiv.org/pdf/2403.04640.pdfYêu cầu sâu hơn