Download Linnk AI
•
Autonomous Research Assistant
>
Sign In
insight
-
동작 인식
비디오 변환기의 VLM 지원 학습을 통한 동작 이해 성능 향상
비디오 변환기의 공간-시간 표현 능력을 유지하면서도 비주얼 언어 모델(VLM)의 출력을 활용하여 더 포괄적이고 일반적인 시각적 인코딩을 생성함으로써 동작 이해 성능을 향상시킨다.
1