Core Concepts
自己教師付きの手法を用いて、エンティティとその構成要素を階層的に分割することで、人手による注釈なしでも高品質なオープンワールドエンティティセグメンテーションを実現する。
Abstract
本論文は、自己教師付きのオープンワールドエンティティセグメンテーションアプローチ「SOHES」を提案している。SOHES は3つのフェーズから構成される:
- 自己探索フェーズ:
- 事前学習された自己教師付き表現(DINO)を使って、画像パッチをクラスタリングし、初期の疑似ラベルを生成する。
- 大域的なクラスタリングと局所的な再クラスタリングを組み合わせ、エンティティとその構成要素を階層的に発見する。
- マスク精度を向上させるためにマスク洗練モデルを適用する。
- 自己教示フェーズ:
- 初期の疑似ラベルを使って、セグメンテーションモデルを学習する。
- モデルには、エンティティ間の階層関係を予測する新しい頭部を追加する。
- 自己修正フェーズ:
- 教師-生徒の相互学習フレームワークを使って、初期の疑似ラベルの誤りを軽減する。
- 動的なしきい値を導入し、小さなエンティティの予測精度を向上させる。
SOHES は、人手による注釈なしで、エンティティとその構成要素を高精度に分割することができる。実験の結果、SOHES は自己教師付きのオープンワールドセグメンテーションの新しい最先端を達成し、教師あり手法との性能ギャップを大幅に縮小した。
Stats
本手法は、11 million枚の画像から成るSA-1B データセットの2%のみを使用して学習を行った。
教師あり手法のSegment Anything Model (SAM) は、1 billion個の注釈付きマスクを使用して学習されている。
Quotes
"オープンワールドエンティティセグメンテーションは、事前定義されたクラスに制限されることなく、画像内のエンティティをセグメンテーションする新しいコンピュータビジョンタスクである。"
"本研究の鍵となる洞察は、知的なモデルが観察から表現を学習するだけでなく、オープンワールドを自己探索し、自己指導・自己一般化し、予測を継続的に洗練・修正することで、オープンワールドセグメンテーションを達成できるということである。"