本論文では、参照ベースの物体計数を手動注釈なしで学習する手法を提案している。
まず、Self-Collagesと呼ばれる自己生成された画像を作成する。これは、背景画像にさまざまな物体を貼り付けたものである。この際、物体の数や位置、サイズなどは自動的に決定される。
次に、Self-Collagesを使って、事前学習された視覚特徴を活用しながら、物体計数を学習するモデルUnCounTRを開発した。UnCounTRは、画像エンコーダ、参照エンコーダ、特徴相互作用モジュール、デコーダから構成される。
実験の結果、UnCounTRは、手動注釈を必要とする既存の手法と比較して、FSC-147データセットの低カウント領域で大幅に優れた性能を示した。また、CARPK、MSO、FSC-147の中高カウント領域でも、既存手法と同等の性能を達成した。
さらに、UnCounTRは自己生成された参照物体を使って、物体の種類を特定しながら計数することも可能であることを示した。これは、従来の手法では実現できない機能である。
本研究は、手動注釈なしで参照ベースの物体計数を学習できることを初めて示したものであり、今後の無監督視覚理解の発展につながる重要な成果である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問