이 논문은 기계 번역을 이용하여 합성 데이터를 생성하고, 이를 효율적으로 필터링하여 언어 모델 학습에 활용하는 방법을 제안한다.
먼저, 웹에서 수집한 단일어 문서(clean)를 기계 번역하여 합성 데이터(synthetic)를 생성한다. 이후 작은 언어 모델(TinyLM)을 이용하여 합성 데이터를 효과적으로 필터링한다.
실험 결과, 필터링된 합성 데이터로 학습한 언어 모델의 성능이 깨끗한 데이터로 학습한 모델과 거의 유사한 것으로 나타났다. 또한 필터링된 합성 데이터에 소량의 깨끗한 데이터를 추가로 학습시키면 성능이 더 향상되었다.
이를 통해 데이터가 부족한 언어에서도 기계 번역을 이용한 합성 데이터로 효과적인 언어 모델을 학습할 수 있음을 보여준다. 또한 이 논문에서는 22개 인도 언어와 영어로 구성된 IndicMonoDoc이라는 대규모 단일어 문서 데이터셋을 공개한다.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询