Alapfogalmak
오브젝트 기반 시각적 상식 추론을 통해 1인칭 동영상에서 알려지지 않은 행동을 발견할 수 있다.
Kivonat
이 논문은 1인칭 동영상에서 알려지지 않은 행동을 발견하는 문제를 다룹니다. 이를 위해 다음과 같은 두 단계 접근법을 제안합니다:
-
오브젝트 기반 증거 추론: 동영상 내 오브젝트를 CLIP 모델을 활용하여 노이즈 오라클로 활용하여 그라운딩합니다. 이때 오브젝트의 구성적 속성을 활용하여 오브젝트 존재 가능성을 계산합니다.
-
오브젝트 기반 행동 발견: 사전 지식 기반의 행동-오브젝트 친화도 함수를 통해 가능한 행동을 발견하고, 에너지 기반 패턴 이론 추론 프레임워크를 활용하여 최적의 행동-오브젝트 조합을 찾아냅니다. 이후 시각-의미 행동 그라운딩 모듈을 통해 발견된 행동을 동영상 특징과 연결시킵니다.
제안 방법론인 ALGO는 GTEA Gaze와 GTEA Gaze Plus 데이터셋에서 오픈 월드 행동 인식 성능을 보여주며, 제로샷 학습 설정에서도 경쟁력 있는 성능을 보여줍니다. 또한 알려지지 않은 행동에 대한 일반화 성능도 확인할 수 있습니다.
Statisztikák
동영상에서 오브젝트를 그라운딩하는 것이 행동 인식 성능 향상에 중요하다.
반복적인 행동 사후 보정 과정이 행동 인식 성능 향상에 도움이 된다.
ConceptNet Numberbatch 임베딩이 GloVe 임베딩보다 행동 인식 성능이 우수하다.
Idézetek
"Learning to infer labels in an open world, i.e., in an environment where the target 'labels' are unknown, is an important characteristic for achieving autonomy."
"To tackle this challenging problem, we propose a neuro-symbolic framework called ALGO - novel Action Learning with Grounded Object recognition that can use symbolic knowledge stored in large-scale knowledge bases to infer activities (verb-noun combinations) in egocentric videos with limited supervision using two steps."