이 연구는 비디오 내 객체 상태 인식 문제를 다룹니다. 객체 상태 인식은 행동과 객체 인식을 넘어 인간 활동을 이해하는 데 중요한 요소입니다. 그러나 객체 상태의 다양성과 모호성으로 인해 데이터 수집이 어려워 이 문제가 잘 해결되지 않았습니다.
이 연구에서는 대규모 언어 모델(LLM)을 활용하여 비디오 내 행동 정보로부터 객체 상태 정보를 추출하는 방법을 제안합니다. LLM은 행동과 객체 상태 간의 관계에 대한 세계 지식을 포함하고 있어, 과거 행동 시퀀스로부터 객체 상태의 존재를 추론할 수 있습니다.
제안 방법은 다음과 같은 3단계로 구성됩니다:
이렇게 생성된 의사 객체 상태 레이블을 활용하여 객체 상태 분류 모델을 학습합니다. 또한 비전-언어 모델을 활용하여 레이블과 비디오 프레임을 정렬합니다.
실험 결과, 제안 방법은 강력한 제로샷 비전-언어 모델 대비 29% 이상 향상된 성능을 보였습니다. 이는 LLM을 통해 행동 정보로부터 객체 상태 정보를 효과적으로 추출할 수 있음을 보여줍니다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Masatoshi Ta... at arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.01090.pdfDeeper Inquiries