Concepts de base
LLM을 활용하여 비디오 ASR 자막을 사람이 작성한 것 같은 고품질 캡션으로 변환하는 방법을 제안한다.
Résumé
이 논문은 대규모 비디오 데이터셋의 자막을 활용하여 고품질의 비디오 캡션을 생성하는 방법을 제안한다.
먼저 ASR 시스템으로 추출한 비디오 자막은 실제 비디오 내용과 잘 맞지 않고 문법적으로 부정확한 경우가 많다. 이를 해결하기 위해 저자들은 LLM을 활용하여 자막을 사람이 작성한 것 같은 캡션으로 변환하는 방법을 제안한다.
구체적으로 다음과 같은 과정을 거친다:
- ASR 자막을 블록 단위로 나누어 LLM에 입력한다.
- LLM은 자막 내용을 바탕으로 비디오를 설명하는 캡션을 생성하고 각 캡션의 시작/종료 시간을 예측한다.
- 생성된 캡션과 비디오의 유사도를 계산하여 정렬하고 유사도가 낮은 캡션은 제거한다.
이를 통해 기존 ASR 자막보다 질 높은 비디오 캡션을 대규모로 생성할 수 있다. 저자들은 이렇게 생성한 HowToCaption 데이터셋을 활용하여 다양한 비디오-언어 태스크에서 성능 향상을 보였다.
Stats
자막에 많은 필러 문구(예: "we're going to")와 추가 정보(예: "they make dog toothbrushes")가 포함되어 있다.
자막과 실제 비디오 내용이 잘 맞지 않는 경우가 많다.
Citations
"Instructional videos are a common source for learning text-video or even multimodal representations by leveraging subtitles extracted with automatic speech recognition systems (ASR) from the audio signal in the videos."
"However, in contrast to human-annotated captions, both speech and subtitles naturally differ from the visual content of the videos and thus provide only noisy supervision."