이 연구는 신경 기계 번역(NMT) 모델에 감정 정보를 통합하여 번역 품질을 향상시키는 방법을 제안한다.
먼저 최신 음성 감정 인식(SER) 모델을 사용하여 입력 오디오 데이터에서 감정 차원(각성, 지배, 가치)을 예측한다. 그런 다음 예측된 감정 정보를 입력 텍스트의 시작 부분에 추가 토큰으로 삽입하여 NMT 모델을 학습시킨다.
실험 결과, 특히 각성 정보를 활용할 때 번역 품질이 향상되는 것을 확인했다. 반면 합성 음성에서 추출한 감정 정보는 번역 성능 향상에 도움이 되지 않았다. 이는 실제 음성 데이터에서 추출한 감정 정보가 더 유용하다는 것을 보여준다.
이 연구는 감정 정보를 NMT 모델에 통합하는 새로운 방법을 제시하며, 특히 각성 정보가 번역 품질 향상에 도움이 된다는 것을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Charles Braz... at arxiv.org 04-30-2024
https://arxiv.org/pdf/2404.17968.pdfDeeper Inquiries