本論文では、SAMのテキスト指示に基づくセグメンテーション能力を向上させるために、2つの深層命令チューニング(DIT)手法を提案している。1つはエンドツーエンドのDIT(E-DIT)で、もう1つはレイヤー単位のDIT(L-DIT)である。これらのDIT手法により、SAMの画像エンコーダを独立した視覚言語学習器として扱うことができ、テキストと画像の完全な相互作用を実現することができる。
RefCOCO、RefCOCO+、RefCOCOgの3つの高競争力ベンチマークデータセットでの実験結果は、提案したDIT-SAMがSAMを大幅に上回り、既存の最先端手法とも競争力があることを示している。具体的には、E-DITはRefCOCO valで11.8%の大幅な改善を達成し、L-DITはさらにパフォーマンスを向上させ、RefCOCO testAで11.6%の改善を示した。
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Xiaorui Huan... ที่ arxiv.org 04-02-2024
https://arxiv.org/pdf/2404.00650.pdfสอบถามเพิ่มเติม