핵심 개념
대화형 대형 언어 모델(LLM)의 문맥 이해 및 생성 능력을 활용하여 기존 신경망 기계 번역(NMT) 시스템의 출력을 개선하는 방법을 제안한다.
초록
이 논문은 대화형 대형 언어 모델(LLM)의 문맥 이해 및 생성 능력을 활용하여 기존 신경망 기계 번역(NMT) 시스템의 출력을 개선하는 방법을 제안한다.
-
초기 실험에서 LLM을 직접 기계 번역에 사용하는 것은 기존 NMT 시스템에 비해 성능이 떨어지는 것으로 나타났다. 이에 따라 LLM을 번역 후처리기(Automatic Post-Editor, APE)로 활용하는 새로운 접근법을 제안한다.
-
문장 수준 APE: NMT 시스템의 출력을 입력으로 받아 LLM이 이를 개선하는 방식으로, 다양한 평가 지표에서 기존 NMT 시스템을 크게 능가하는 성과를 보였다. 특히 도메인 외 데이터에 대해서도 강건한 성능을 보였다.
-
문서 수준 APE: 문장 수준 APE를 확장하여 문서 전체를 고려하는 방식으로, 문장 및 문서 수준 평가 지표에서 모두 큰 향상을 보였다. 특히 대명사 모호성 해결 등 문맥 활용 능력이 두드러졌다.
-
수동 후처리 통합: 사용자가 수동으로 수정한 번역문을 LLM에 피드백으로 제공하면, 이를 활용하여 후속 번역 품질을 크게 향상시킬 수 있음을 보였다.
통계
문장 수준 NMT 모델의 BLEU 점수는 30.45이다.
문서 수준 NMT 모델의 BLEU 점수는 30.66이다.
문장 수준 LLM APE 모델의 BLEU 점수는 31.71이다.
문서 수준 LLM APE 모델의 BLEU 점수는 31.85이다.
문서 수준 LLM APE 모델의 ContraPro 정확도는 88.7%이다.
인용구
"LLMs may not be as proficient translators as state-of-the-art NMT systems due to no explicit training with large amounts of parallel data. However, LLMs being trained on the web containing data from several domains, possess general knowledge that is lacking in a NMT model."
"Surprisingly, our initial experiments find that fine-tuning for translation purposes even led to performance degradation compared to in-context-learning."