Core Concepts
SAMモデルと光流情報を組み合わせることで、動体物体の精度の高い分割が可能になる。
Abstract
本論文は、動体物体分割の課題に取り組んでいる。動体物体分割は、ビデオ内の動いている物体を発見し、セグメンテーションするタスクである。これまでにも様々な慎重で複雑なアプローチが提案されてきたが、本論文では、Segment Anything Model (SAM)を活用することで、より簡単で効果的な手法を提案している。
具体的には、2つのモデルを提案している。1つ目のFlowI-SAMは、光流情報を入力として直接SAMに入力し、動体物体のセグメンテーションを行う。2つ目のFlowP-SAMは、RGBフレームを入力とし、光流情報をプロンプトとして使用することで、動体物体の分割を行う。これらの単純な手法は、従来手法を大幅に上回る性能を発揮する。
さらに、フレームレベルの分割結果を時系列的に統合し、物体IDを維持したシーケンスレベルの分割も提案している。これも従来手法を大きく上回る性能を示している。
Stats
動体物体の分割では、光流情報を複数のフレームギャップで入力することで、ノイズの影響を軽減できる。
光流特徴量の平均化は、最大値を取るよりも良い性能を発揮する。
RGBフレームとプロンプトとしての光流情報を組み合わせることで、動体物体の分割精度が向上する。
Quotes
"我々の興味は、Segment Anything Model (SAM)がこのタスクに貢献できるかどうかを明らかにすることです。"
"これらの驚くほど単純な手法は、さらなる変更を加えることなく、従来のアプローチを大幅に上回る性能を発揮します。"
"我々の貢献は3つあります。FlowI-SAMモデル、FlowP-SAMモデル、そしてシーケンスレベルの分割手法です。"