이 연구의 목적은 오디오-이미지 시간적 일치에 대한 지식 전달을 개선하여 오디오-텍스트 교차 검색을 향상시키는 것이다. 비음성 오디오-텍스트 데이터의 가용성이 제한적이므로, 대량의 오디오-이미지 데이터에서 습득한 지식을 공유 오디오-텍스트 표현으로 전달하는 학습 방법이 중요하다. 기존 접근법은 비디오 스트림에서 무작위로 선택한 단일 이미지를 전체 오디오 클립에 할당하여 공동 발생을 가정했지만, 이는 오디오와 이미지의 시간적 일치를 정확하게 포착하지 못할 수 있다. 이 문제를 해결하기 위해 우리는 시간 정보를 효과적으로 포착하는 두 가지 오디오-이미지 매칭 방법을 제안한다: (i) 가장 유사한 이미지를 선택하는 Nearest Match와 (ii) 여러 프레임의 오디오-이미지 쌍을 사용하는 Multiframe Match. 실험 결과, (i) 방법은 오디오와 가장 유사한 이미를 선택하여 학습된 지식을 전달함으로써 오디오-텍스트 검색 성능을 향상시켰다. 반면, (ii) 방법은 오디오-이미지 검색 성능을 향상시켰지만 오디오-텍스트 검색 성능 향상은 크지 않았다. 이는 오디오-이미지 시간적 일치를 개선하는 것이 오디오-텍스트 검색으로의 지식 전달에 기여할 수 있음을 시사한다.
Іншою мовою
із вихідного контенту
arxiv.org
Ключові висновки, отримані з
by Shunsuke Tsu... о arxiv.org 03-19-2024
https://arxiv.org/pdf/2403.10756.pdfГлибші Запити