이 논문은 다중 시점 비디오 기반 인식 모델을 학습할 때 프레임 단위 레이블 지정이 어려운 문제를 해결하기 위해 제안된 프레임워크를 소개한다.
먼저 베이스 모델은 약한 레이블을 활용하여 학습되며, 이때 새로운 약한 레이블 잠재 손실 함수를 사용하여 각 시점의 잠재 임베딩을 학습한다. 이렇게 학습된 잠재 임베딩은 이후 프레임 수준의 인식 작업을 위한 다운스트림 모델에 활용된다.
실험 결과, 제안된 프레임워크가 기존 방법들에 비해 우수한 성능을 보였다. 특히 다중 클래스 액션 인식 작업에서 큰 성능 향상을 보였다. 이는 베이스 모델의 잠재 임베딩이 다운스트림 모델의 성능 향상에 기여했기 때문으로 분석된다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Vijay John,Y... a las arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.11616.pdfConsultas más profundas