แนวคิดหลัก
提案されたエンコーダー専用アーキテクチャは、オープンボキャブラリーの視覚関係検出において強力なパフォーマンスを達成し、従来のデコーダーに基づくアーキテクチャよりも優れていることを示しています。
บทคัดย่อ
- 画像内のオブジェクトとその関係を効率的に検出する新しいアーキテクチャが提案されました。
- 従来の方法と比較して、エンコーダー専用設計が優れたパフォーマンスを実現しました。
- モデルは大規模なデータセットでトレーニングされ、様々なVRDベンチマークで最先端の性能を達成しました。
- 関係検出の精度はオブジェクト検出に影響を与えず、推論速度も高速です。
Introduction:
この記事では、Scene-Graph ViTと呼ばれる新しいエンコーダー専用アーキテクチャが紹介されています。このアーキテクチャはオープンボキャブラリーの視覚関係検出において非常に効率的であり、従来のデコーダーに基づくアプローチよりも優れたパフォーマンスを発揮します。
Main Ideas:
- エンコーダー専用設計はオブジェクト検出性能に影響せず、関係検出性能を向上させます。
- モデルは大規模なデータセットでトレーニングされ、多くのVRDベンチマークで最先端の結果を達成します。
- 関係検出精度が高く、推論速度も高速です。
Excerpts:
- "我々は単一段階レシピを提供し..."
- "我々の方法はVisual Genome..."
- "我々はゼロショットパフォーマンス..."
สถิติ
我々の方法はUniVRDよりもmR@100で5.1ポイント向上しております。
คำพูด
"Our architecture performs open-vocabulary relationship detection and can be trained end-to-end on arbitrary mixtures of object detection and relationship annotations."