이 연구는 다국어 역방향 지침(MURI)이라는 새로운 방법론을 소개한다. MURI는 저자원 언어를 위한 고품질 지침 조정 데이터셋을 생성할 수 있다. 기존의 지침 조정 데이터셋 생성 방법은 인간 주석 작업, 템플릿화된 NLP 과제, 합성 데이터 생성 등의 한계가 있었다. MURI는 역방향 지침과 번역 파이프라인을 활용하여 저자원 언어의 기존 인간 작성 텍스트에서 지침-출력 쌍을 생성한다. 이를 통해 문화적 관련성과 다양성을 보장하고 부적절한 콘텐츠를 제거할 수 있다.
MURI-IT 데이터셋은 200개 언어에 걸쳐 200만 개 이상의 지침-출력 쌍을 포함한다. 토착어 화자 평가와 mT5 모델 미세 조정 실험을 통해 MURI-IT의 효과성을 입증했다. MURI-101 모델은 기존 모델 대비 NLU와 NLG 성능이 크게 향상되었다. 또한 저자원 언어 실험에서도 MURI-IT가 기존 데이터셋을 보완하여 성능을 높일 수 있음을 확인했다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen