Core Concepts
문화 특정 항목의 번역 품질을 높이기 위해 LLM 기반 기계 번역 시스템의 문화 인식 능력을 평가하고 향상시키는 방법을 제안한다.
Abstract
이 연구는 문화 특정 항목(CSI)의 번역 품질을 향상시키기 위해 LLM 기반 기계 번역 시스템의 문화 인식 능력을 평가하고 개선하는 방법을 제안한다.
문화 관련 병렬 말뭉치 구축: 위키피디아 데이터를 활용하여 문화 특정 항목을 포함한 병렬 말뭉치를 구축하였다. 이 말뭉치에는 6개 언어쌍(영어-중국어, 영어-프랑스어, 영어-스페인어, 영어-힌디어, 영어-타밀어, 영어-텔루구어)이 포함되어 있다.
문화 인식 평가 지표 개발: CSI 번역의 정확성과 이해도를 평가하기 위한 새로운 자동 평가 지표를 제안하였다. CSI-Match는 번역의 정확성을, Understandability는 번역의 이해도를 측정한다.
LLM 기반 기계 번역 전략 탐구: 외부 지식(CSI 번역, CSI 설명)과 내부 지식(자기 설명, 자기 순위)을 활용하는 다양한 프롬프팅 전략을 제안하고 평가하였다. 특히 CSI 설명을 포함하는 프롬프팅 전략이 번역의 이해도를 크게 향상시켰다.
다양한 기계 번역 시스템 비교: 전통적인 NMT 시스템과 LLM 기반 MT 시스템의 문화 인식 능력을 비교 분석하였다. 결과적으로 LLM 기반 MT 시스템이 문화 특정 항목의 번역에서 더 나은 성능을 보였다.
Stats
문화 특정 항목이 포함된 문장은 번역 정확도가 낮다.
문화 특정 항목 중 번역이 잘 되지 않는 항목이 많다.
문화 특정 항목의 설명을 포함하면 번역의 이해도가 크게 향상된다.
Quotes
"문화 특정 항목의 번역은 효과적인 문화 간 의사소통을 위해 매우 중요하다."
"많은 MT 시스템이 문화 특정 항목을 정확하고 이해할 수 있게 번역하는 데 여전히 어려움을 겪고 있다."
"CSI 설명을 포함하는 프롬프팅 전략이 번역의 이해도를 크게 향상시켰다."