이 연구의 목적은 오디오-이미지 시간적 일치에 대한 지식 전달을 개선하여 오디오-텍스트 크로스 리트리벌을 향상시키는 것이다.
오디오-이미지 학습에서는 비디오 스트림에서 무작위로 선택된 단일 이미지를 전체 오디오 클립에 할당하는 방식을 사용한다. 그러나 이 방법은 오디오와 이미지의 시간적 일치를 정확하게 포착하지 못할 수 있다. 이를 해결하기 위해 두 가지 방법을 제안한다:
실험 결과, Nearest Match 방법은 오디오-텍스트 리트리벌 성능을 향상시켰다. 이는 오디오 캡션이 주요 소리에 주석이 달리는 경향이 있어, 소리와 유사한 프레임을 선택하는 것이 효과적이었기 때문이다. 반면 Multiframe Match 방법은 오디오-이미지 리트리벌 성능을 크게 향상시켰다. 이는 오디오와 비디오 프레임 간의 시간적 관계를 학습하는 것이 효과적이었기 때문이다.
이러한 결과는 오디오-이미지 시간적 일치를 개선하는 것이 오디오-텍스트 리트리벌로의 지식 전달에 기여할 수 있음을 보여준다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies