Centrala begrepp
인간의 시각 피질에서 영감을 받은 모션 에너지 모델은 무작위 점 자극에 대한 제로샷 일반화에서 최첨단 광학 흐름 모델을 능가하여 인간과 유사한 성능을 달성합니다.
Sammanfattning
인간과 유사한 제로샷 모션 분할을 위한 모션 에너지 모델 연구
본 연구 논문에서는 컴퓨터 비전에서 움직이는 객체를 분할하는 데 널리 사용되는 광학 흐름 모델과 인간의 시각 피질에서 영감을 받은 모션 에너지 모델을 비교 분석합니다. 특히, 두 모델이 무작위 점 자극에 대한 제로샷 일반화 능력을 얼마나 잘 수행하는지에 중점을 두고 있습니다.
인간은 움직이는 객체를 감지하고 분할하는 데 탁월하며, 이는 "공통된 운명"이라는 게슈탈트 원칙에 따라 이루어진다고 알려져 있습니다. 놀랍게도 인간은 이 원칙을 이전에 본 적 없는 텍스처나 무작위 점에도 제로샷 방식으로 일반화할 수 있습니다.
본 연구에서는 다양한 광학 흐름 모델과 1998년 Simoncelli와 Heeger가 제안한 신경과학 기반 모션 에너지 모델을 사용하여 무작위 점 자극의 제로샷 객체 분할 성능을 평가했습니다. 광학 흐름 모델의 경우, FlowNet, PWC-Net, RAFT, GMA, GMFlow, FlowFormer++ 등 다양한 최첨단 모델을 포함하여 총 40개의 모델을 평가했습니다. 분할 모델로는 모든 모션 추정기에서 동일한 아키텍처를 사용했으며, 각 모델에 대해 처음부터 학습했습니다.