이 연구는 스포츠 비디오의 복잡한 문제를 해결하기 위해 제안된 새로운 접근법을 소개합니다. 기존 방법들은 전역 특징에 크게 의존하여 전체 프레임을 하나의 블랙박스로 다루었지만, 이로 인해 장면의 미묘한 부분을 간과하고 작은 객체로 구성된 액션을 탐지하는 데 어려움을 겪었습니다.
제안된 접근법은 적응형 주의 메커니즘을 사용하여 장면 엔티티를 분석하고 모델링합니다. 구체적으로 전역 환경 특징과 관련 로컬 장면 엔티티 특징을 분리하여 추출합니다. 시간 정보를 효율적으로 고려하면서도 계산 비용을 줄이기 위해 2D 백본 네트워크와 시간 이동 메커니즘을 제안합니다. 관련 장면 엔티티를 정확하게 캡처하기 위해 비전-언어 모델과 적응형 주의 메커니즘을 활용합니다.
제안된 모델은 SoccerNet-v2 액션 탐지, FineDiving, FineGym 과제에서 우수한 성능을 보여 각각 1.6, 2.0, 1.3 포인트의 성능 향상을 달성했습니다. 또한 다른 딥러닝 모델과 달리 해석 가능성을 제공합니다.
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Kim Hoang Tr... في arxiv.org 04-16-2024
https://arxiv.org/pdf/2404.09951.pdfاستفسارات أعمق