Core Concepts
自動運転のためのビデオ質問応答ベンチマークを導入する。
Abstract
LingoQAは自動運転におけるビデオ質問応答の包括的なベンチマークである。
ビジョン言語モデルを評価するための新しいデータセットとベンチマークを紹介。
人間の評価と高い相関性を持つ学習済み分類器ベースのメトリック「Lingo-Judge」を提案。
自動運転用の包括的な高品質トレーニングデータセットも提供。
結果から、効果的な探索が可能な迅速なフィードバックが得られる。
1. LingoQA: Video Question Answering for Autonomous Driving
自動運転におけるビデオ質問応答に焦点を当てた包括的なベンチマーク。
2. Abstract
新しいビデオ質問応答用データセットとベンチマーク「LingoQA」を紹介。
学習済みLLMと高い相関性を持つ「Lingo-Judge」分類器による効率的かつ信頼性の高い評価方法提供。
3. Introduction
コミュニケーションが信頼構築に重要であり、明示的な推論ステップが利用者信頼向上に寄与することが示唆されている。
自律走行分野でテキスト説明の必要性が強調されており、安全性重視ドメインでは特に重要視されている。
Stats
GPT-4Vは人間の93.4%に対して56.67%で真実回答する。