이 연구는 비디오 클립 내 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 프레임워크를 제안한다. 주요 내용은 다음과 같다:
원시 비디오 클립에서 객체 행동 정보를 추출하는 새로운 파이프라인을 제안하고, 이를 활용하여 MSR-VTT-ASP와 ActivityNet-ASP라는 두 개의 새로운 데이터셋을 구축했다.
추출된 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 트랜스포머 기반 추론 방법을 제안했다.
실험 결과, 제안한 방법이 기존 최신 기술 대비 MSR-VTT와 ActivityNet 데이터셋에서 부사 유형 인식 성능이 향상되었음을 보였다.
단일 시간 단계 기반 기호 추론 방법을 기준선으로 제시하고, 이를 트랜스포머 기반 추론 방법과 비교했다.
전반적으로 이 연구는 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 접근법을 제안하고, 이를 통해 기존 최신 기술 대비 성능 향상을 보였다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询