本論文は、ユニバーサルフューショットインスタンス認識の問題に取り組んでいる。従来のアプローチは個別のタスクに特化したモデルを開発していたが、データソース、特徴の粒度、出力構造の違いから、これらのタスクを統一的に扱うことは困難であった。
本研究では、UniFS というモデルを提案している。UniFS は、様々なインスタンス認識タスクをポイント表現学習のパラダイムに統一的に定式化することで、タスク非依存の構造を実現している。具体的には、オブジェクト検出はバウンディングボックスの端点、インスタンスセグメンテーションはマスクの輪郭点、ポーズ推定はキーポイント、オブジェクトカウンティングはオブジェクトの中心点といった具合に、タスクごとに異なる出力をポイントの集合として表現する。
さらに、UniFS は Structure-Aware Point Learning (SAPL) と呼ばれる新しい損失関数を導入している。SAPL は、各ポイントとその近傍ポイントの関係性を考慮することで、ポイントの空間的依存性を学習する。これにより、ノイズに強く、安定した学習が可能となる。
UniFS は、COCO-UniFS というベンチマークデータセットを用いて評価されている。COCO-UniFS は、オブジェクト検出、インスタンスセグメンテーション、ポーズ推定、オブジェクトカウンティングの4つのタスクを網羅しており、タスク間の統一性を確保している。実験の結果、UniFS は、タスク特化型のモデルと比較して遜色ない性能を示しつつ、ユニバーサル性を備えていることが確認された。
To Another Language
from source content
arxiv.org
ข้อมูลเชิงลึกที่สำคัญจาก
by Sheng Jin,Ru... ที่ arxiv.org 05-01-2024
https://arxiv.org/pdf/2404.19401.pdfสอบถามเพิ่มเติม