Core Concepts
청자가 소리로부터 추출하는 의미 정보를 고려하여 자동 오디오 캡셔닝 모델을 평가하는 새로운 지표 ACES를 제안한다.
Abstract
이 연구는 자동 오디오 캡셔닝(AAC) 모델의 성능을 평가하기 위한 새로운 지표인 ACES(Audio Captioning Evaluation on Semantics of Sound)를 소개한다.
ACES는 청자가 소리로부터 추출하는 의미 정보를 반영하여 캡션의 질을 평가한다. 구체적으로 ACES는 소리의 발생원(WHO), 소리의 특성(WHAT), 소리 발생 방식(HOW), 시간적/공간적 맥락(WHEN/WHERE) 등 다양한 의미 범주를 고려한다.
ACES는 이러한 의미 범주에 대한 캡션 간 유사도를 측정하여 점수를 산출한다. 또한 유창성 오류 감지 모델을 통해 캡션의 완성도도 평가한다.
ACES는 기존 AAC 평가 지표들에 비해 FENSE 벤치마크에서 우수한 성능을 보였다. 특히 인간 평가와의 상관관계가 높은 Human-Incorrect와 Human-Machine 범주에서 두드러진 성과를 보였다. 이는 ACES가 청자의 소리 인지 과정을 잘 반영하여 AAC 모델의 성능을 보다 정확하게 평가할 수 있음을 시사한다.
Stats
소리 발생원(WHO)이 있는 문장은 더 높은 점수를 받는다.
소리 특성(WHAT)과 발생 방식(HOW)이 잘 반영된 문장은 더 높은 점수를 받는다.
시간적/공간적 맥락(WHEN/WHERE)이 포함된 문장은 더 높은 점수를 받는다.
유창성 오류가 있는 문장은 점수가 감소한다.
Quotes
"ACES는 청자가 소리로부터 추출하는 의미 정보를 반영하여 자동 오디오 캡셔닝 모델의 성능을 평가한다."
"ACES는 FENSE 벤치마크에서 기존 지표들에 비해 우수한 성능을 보였다."