Temel Kavramlar
고전 중국어 자료가 한자 및 간분과 같은 동아시아 역사 문어 처리에 필수적으로 도움이 된다는 통념과 달리, 실증적인 연구 결과는 제한적인 효과를 보여주며, 특히 자원이 풍부한 경우 그 효과가 미미하다.
Özet
고전 중국어 자료의 효과에 대한 의문: 한자 및 간분을 위한 교차 언어 전이
본 연구는 고전 중국어 자료를 활용한 한국어 및 일본어 역사 문헌 처리에서 교차 언어 전이 효과를 실증적으로 분석한 연구 논문입니다.
본 연구는 고전 중국어 자료가 한자 및 간분으로 작성된 한국어 및 일본어 역사 문헌 처리에 미치는 영향을 실증적으로 평가하는 것을 목표로 합니다. 특히, 기계 번역, 개체명 인식, 문장 부호 복원이라는 세 가지 핵심 자연어 처리 작업을 통해 그 효과를 정량적으로 분석합니다.
연구진은 다양한 규모의 언어 모델(Qwen2, SikuRoBERTa)을 사용하여 고전 중국어, 한자, 간분 자료를 다양하게 조합하여 학습시키고, 각 언어 및 작업에 대한 성능을 비교 분석했습니다.
구체적으로, 기계 번역에는 BLEU 점수를, 개체명 인식 및 문장 부호 복원에는 F1 점수를 사용하여 성능을 측정했습니다. 또한, 통계적 유의성 검증을 통해 고전 중국어 자료 추가에 따른 성능 변화를 엄격하게 평가했습니다.