SPECTRUM은 비디오의 의미론적 이해와 감정 분석을 결합하여 보다 정확하고 풍부한 맥락을 담은 캡션을 생성하는 혁신적인 비디오 캡셔닝 프레임워크입니다.
반복적인 장면이 많은 비디오에서 각 클립을 구별하는 고유한 캡션을 생성하는 것은 비디오 검색의 정확도를 향상시키는 데 중요합니다.
LLM을 활용하여 비디오 ASR 자막을 사람이 작성한 것 같은 고품질 캡션으로 변환하는 방법을 제안한다.