MCTS는 중국어 문장 단순화를 위한 다중 참조 데이터셋이다. 723개의 원문 문장에 대해 각각 5개의 단순화된 문장을 수작업으로 구축하였다. 이 데이터셋은 어휘 바꾸기, 문장 압축, 구조 변경 등 다양한 문장 재작성 변환을 포함하고 있다.
데이터셋 분석 결과, MCTS는 원문 문장에 비해 어휘 복잡도가 낮고, 문장 구조가 단순화되었음을 확인할 수 있다. 또한 문장 분할보다는 복합문을 단순한 문장으로 바꾸는 등 중국어 문장 단순화의 특성이 잘 반영되어 있다.
MCTS를 활용하여 다양한 비지도 학습 방식과 대규모 언어 모델의 중국어 문장 단순화 성능을 평가하였다. 실험 결과, 대규모 언어 모델이 비지도 학습 방식을 능가하지만 여전히 사람의 단순화 수준에는 미치지 못하는 것으로 나타났다. 이를 통해 중국어 문장 단순화 기술의 현재 수준과 향후 발전 방향을 확인할 수 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究