이 연구는 비디오 클립 내 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 프레임워크를 제안한다. 주요 내용은 다음과 같다:
원시 비디오 클립에서 객체 행동 정보를 추출하는 새로운 파이프라인을 제안하고, 이를 활용하여 MSR-VTT-ASP와 ActivityNet-ASP라는 두 개의 새로운 데이터셋을 구축했다.
추출된 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 트랜스포머 기반 추론 방법을 제안했다.
실험 결과, 제안한 방법이 기존 최신 기술 대비 MSR-VTT와 ActivityNet 데이터셋에서 부사 유형 인식 성능이 향상되었음을 보였다.
단일 시간 단계 기반 기호 추론 방법을 기준선으로 제시하고, 이를 트랜스포머 기반 추론 방법과 비교했다.
전반적으로 이 연구는 객체 행동 정보를 활용하여 부사 유형을 인식하는 새로운 접근법을 제안하고, 이를 통해 기존 최신 기술 대비 성능 향상을 보였다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Amrit Diggav... في arxiv.org 03-29-2024
https://arxiv.org/pdf/2307.04132.pdfاستفسارات أعمق