이 논문은 장기 1인칭 동영상에서의 질문 답변 문제를 다룬다. 기존 접근법은 주로 짧은 3인칭 동영상을 대상으로 하여 1인칭 동영상에 적용하기 어려운 한계가 있다.
제안하는 접근법은 다음과 같은 특징을 가진다:
실험 결과, 제안 모델은 QAEGO4D와 Ego4D-NLQ 벤치마크에서 최신 성능을 달성한다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Shangzhe Di,... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2312.06505.pdfDeeper Inquiries