Core Concepts
ファウンデーションモデルは様々なタスクで優れた性能を発揮するが、物体検出と物体分割では十分な性能が得られない。その原因は物体境界線の識別が難しいことにある。本研究では、CLIP特有の中間層の特徴量クラスタリングが物体境界線を明確に表現できることを発見し、これを活用することで教師なしでも高精度な物体検出と物体分割を実現できることを示す。
Abstract
本研究では、教師なしでの物体検出と物体分割を実現するために、ファウンデーションモデルの活用に取り組んでいる。
まず、DINO や SAMといったファウンデーションモデルを用いた従来手法では、物体境界線の識別が難しく、物体の個別検出や背景物体の検出に課題があることを明らかにした。
次に、CLIP特有の中間層の特徴量クラスタリングが物体境界線を明確に表現できることを発見した。この発見に基づき、CLIP の特徴量クラスタリングと SAMの物体分割を組み合わせた新しいパイプラインを提案した。
具体的には、まずCLIPの特徴量クラスタリングで物体境界線を検出し、次にその境界線情報とCLIPの言語的意味情報を組み合わせて個別の物体を特定する。最後にSAMを用いて物体分割マスクを生成する、という流れである。
この提案手法"Zip"は、教師なしでも高精度な物体検出と物体分割を実現し、従来手法を大幅に上回る性能を示した。また、少量の教師データを使った微調整でもさらに性能が向上することを確認した。
Stats
物体検出のAP(Average Precision)が従来手法より12.5%向上した
物体分割のAP(Average Precision)が従来手法より8.7%向上した