이 논문은 1인칭 동영상에서 알려지지 않은 행동을 발견하는 문제를 다룹니다. 이를 위해 다음과 같은 두 단계 접근법을 제안합니다:
오브젝트 기반 증거 추론: 동영상 내 오브젝트를 CLIP 모델을 활용하여 노이즈 오라클로 활용하여 그라운딩합니다. 이때 오브젝트의 구성적 속성을 활용하여 오브젝트 존재 가능성을 계산합니다.
오브젝트 기반 행동 발견: 사전 지식 기반의 행동-오브젝트 친화도 함수를 통해 가능한 행동을 발견하고, 에너지 기반 패턴 이론 추론 프레임워크를 활용하여 최적의 행동-오브젝트 조합을 찾아냅니다. 이후 시각-의미 행동 그라운딩 모듈을 통해 발견된 행동을 동영상 특징과 연결시킵니다.
제안 방법론인 ALGO는 GTEA Gaze와 GTEA Gaze Plus 데이터셋에서 오픈 월드 행동 인식 성능을 보여주며, 제로샷 학습 설정에서도 경쟁력 있는 성능을 보여줍니다. 또한 알려지지 않은 행동에 대한 일반화 성능도 확인할 수 있습니다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Sanjoy Kundu... : arxiv.org 05-06-2024
https://arxiv.org/pdf/2305.16602.pdfDaha Derin Sorular