Основні поняття
ユーザーが自然言語で指定した期待シナリオに基づいて、分布外検出を行うことで、透明性と制御性を向上させる。
Анотація
本論文は、自動運転における分布外検出の新しいアプローチを提案している。従来の分布外検出手法は、固定された設定のエンコーダモデルを使用していたため、ユーザーとの効果的な対話機能が欠如していた。本研究では、大規模基礎モデルを活用し、画像と文章の表現を統合することで、ユーザーが自然言語で指定した期待シナリオに基づいて分布外検出を行うことを可能にした。
具体的には、マルチモーダルモデルCLIPを使用して、画像と文章の表現の類似度を計算し、言語ベースの潜在表現を得る。この表現は、ユーザーにとって意味のある情報を含むため、分布外検出の透明性と制御性が向上する。
実験では、写実的な自動運転シミュレータデータを使用し、従来の視覚エンコーダ表現と提案手法の性能を比較した。結果、提案手法は、特に異常な文章記述を用いた場合に優れた性能を示した。これは、ユーザーが自然言語で分布外の状況を指定できることの有効性を示している。今後の課題として、ユーザーの対話的な指定に応じて表現を適応させる手法の開発が挙げられる。
Статистика
提案手法のF1スコアは、雨天時で64.20、雪景色で83.05、夜間で91.44、明るい環境で85.48などと、状況に応じて良好な性能を示した。
従来手法のF1スコアは、雨天時で66.64、雪景色で78.30、夜間で95.56、明るい環境で66.62と、状況によって大きな変動があった。
Цитати
"ユーザーが自然言語で指定した期待シナリオに基づいて分布外検出を行うことで、透明性と制御性を向上させる。"
"提案手法は、特に異常な文章記述を用いた場合に優れた性能を示した。これは、ユーザーが自然言語で分布外の状況を指定できることの有効性を示している。"