แนวคิดหลัก
T-Rex2 integrates text and visual prompts for generic object detection, showcasing strong zero-shot capabilities.
บทคัดย่อ
T-Rex2 introduces a model that synergizes text and visual prompts for open-set object detection.
The model addresses the limitations of using only text or visual prompts by combining both modalities through contrastive learning.
T-Rex2 supports various workflows, including interactive, generic, text-only, and mixed prompt modes.
Extensive experiments demonstrate the model's effectiveness in zero-shot object detection across different benchmarks.
Ablation experiments show the impact of data engines, joint training, contrastive alignment, number of prompts, and inference speed on performance.
สถิติ
このアプローチは、テキストとビジュアルのプロンプトを統合し、ゼロショット能力を示す。
ビジュアルプロンプトは、テキストプロンプトに干渉する可能性がある。
T-Rex2は、オープンセット物体検出のためにテキストとビジュアルのプロンプトを統合するモデルを導入します。