OmDet-Turboは、効率的なフュージョンヘッドを導入し、高い検出性能と効率を実現するリアルタイムトランスフォーマーベースのオープンボキャブラリー物体検出モデルです。
CastDetは、CLIPを活用した学生-教師型のオープンボキャブラリー空中物体検出フレームワークであり、新規物体の提案と分類を向上させる。
本稿では、事前学習済みモデルのバックボーンを凍結し、画像とテキストの両方の特徴量を表現するために共有パラメータを用いる「ユニバーサルプロジェクション」(UP)モジュールを導入することで、オープンボキャブラリー物体検出システムのトレーニングに必要なパラメータ数を大幅に削減する軽量なフレームワークを提案する。
物体検出において、従来の物体検出モデルでは新しい物体を検出するのが難しいという課題に対し、CLIPのようなVision-Languageモデルのオープンボキャブラリー知識を直接物体検出タスクに組み込むことで、より堅牢で適応性の高い検出システムを実現できる。
CLIPモデルの背景画像処理における弱点を克服することで、オープンボキャブラリー物体検出の精度を向上させることができる。