核心概念
拡散モデルの中間特徴を効果的に集約することで、物体姿勢推定の汎化性能を大幅に向上させることができる。
要約
本論文は、物体姿勢推定における汎化性能の向上を目的としている。従来の手法では、見慣れた物体に対しては高精度な推定が可能であるものの、未知の物体に対する性能が大幅に低下するという課題があった。
著者らは、この課題に対して、テキスト-画像拡散モデルの中間特徴に着目した。拡散モデルは、豊富なテキストデータを利用して学習されるため、汎化性能に優れた特徴を生成できると考えられる。そこで、著者らは3つの異なるアーキテクチャを提案し、拡散モデルの中間特徴を効果的に集約することで、物体姿勢推定の精度を大幅に向上させている。
具体的には、まず単純な集約ネットワーク(Arch. (a))を提案し、次に非線形性を導入したネットワーク(Arch. (b))を提案した。さらに、コンテキスト情報に基づいて最適な重み付けを学習するネットワーク(Arch. (c))を提案している。
これらの提案手法を、LINEMOD、Occlusion-LINEMOD、T-LESSの3つのベンチマークデータセットで評価した結果、従来手法と比べて大幅な精度向上を達成している。特に、未知の物体に対する精度が大幅に向上しており、著者らの手法の高い汎化性能が示された。
統計
未知のLINEMODデータセットにおける精度は98.2%であり、従来手法の93.5%を大幅に上回っている。
未知のOcclusion-LINEMODデータセットにおける精度は85.9%であり、従来手法の76.3%を大幅に上回っている。