Core Concepts
本研究では、VisLED(Vision-Language Embedding Diversity Querying)と呼ばれる言語駆動型アクティブラーニングフレームワークを提案し、未知のオブジェクトや少数クラスのオブジェクトを効率的に検出することができる。
Abstract
本研究では、自動運転における安全性を確保するために重要な3Dオブジェクト検出の課題に取り組んでいる。データ駆動型のアプローチでは、少数クラスや未知のオブジェクトを検出することが困難となる。そこで本研究では、VisLEDと呼ばれる言語駆動型アクティブラーニングフレームワークを提案している。
VisLEDは、アクティブラーニング手法を活用し、未知のデータサンプルを効率的に選択することで、モデルの性能を向上させる。具体的には、VisLED-Querying アルゴリズムを導入し、オープンワールド探索とクローズドワールド採掘の2つの設定で動作する。オープンワールド探索では、既存のデータに対して最も新規性の高いデータを選択し、クローズドワールド採掘では、既知のクラスの新しいインスタンスを発見する。
提案手法をnuScenesデータセットで評価した結果、VisLEDは既存の手法と比較して優れた性能を示すことが分かった。特に、ランダムサンプリングと比較して、データの50%使用時に1%のmAP向上が確認された。一方で、モデル最適化を目的とした不確実性ベースの手法には及ばないものの、モデル非依存で動作するVisLEDの特性を生かせる可能性が示された。
Stats
提案手法VisLEDは、ランダムサンプリングと比較して、データの50%使用時に1%のmAP向上を達成した。
VisLEDは、モデル最適化を目的とした不確実性ベースの手法には及ばないものの、モデル非依存で動作するという特性を生かせる可能性がある。
Quotes
"VisLED-Querying は、既存のデータに対して最も新規性の高いデータを選択する"
"VisLED は、モデル非依存で動作するという特性を生かせる可能性がある"