이 논문은 기계번역 품질 추정(MTQE)에 대한 포괄적인 개요를 제공한다.
데이터셋 부분에서는 MLQE-PE와 WMT2023 QE 데이터셋을 소개하고, 주석 방법으로 HTER, DA, MQM을 설명한다. 공유 과제는 단어 수준, 문장 수준, 문서 수준, 설명 가능한 QE로 구분된다.
방법론 부분에서는 핸드크래프트 특징 기반, 딥러닝 기반, 대규모 언어 모델 기반 QE 방법을 소개한다. 딥러닝 기반 방법은 고전적인 딥러닝 방법과 사전 학습 언어 모델을 활용하는 방법으로 나뉜다. 각 방법의 장단점을 비교 분석한다.
마지막으로 데이터 부족, 설명력 부족, 단어/문서 수준 QE 방법 부족, 계산 자원 요구량 증가, 표준화된 평가 지표 부족 등 QE 분야의 5가지 주요 과제를 논의하고 향후 연구 방향을 제시한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies