Core Concepts
우크라이나어 대규모 언어 모델을 구축하기 위해서는 자연어로 표현된 새로운 알고리즘 작업 데이터를 확장해야 한다. 영어로 된 작업 수행 예시가 풍부하므로 고품질 번역 시스템을 통해 데이터셋 큐레이션을 가속화할 수 있다.
Abstract
이 논문은 우크라이나어-영어 기계 번역 시스템을 구축하는 방법을 제안한다. 저자들은 대규모 사전 훈련된 언어 모델을 미세 조정하는 2단계 접근 방식을 사용한다.
첫 번째 단계에서는 Paracrawl 데이터셋을 사용하여 모델을 훈련한다. 이 데이터셋에는 반복적이거나 잘못된 예제가 많이 포함되어 있어 저자들은 언어 필터링, 퍼플렉서티 임계값 설정, 번역 불일치 필터링, 길이 필터링 등의 휴리스틱 기법을 사용하여 데이터를 정제한다.
두 번째 단계에서는 Extended Multi30K 데이터셋을 사용하여 모델을 추가로 미세 조정한다. 이 데이터셋의 품질이 더 높기 때문에 모델 성능이 향상된다. 또한 저자들은 k-fold 교차 검증 기반 퍼플렉서티 필터링을 통해 데이터를 추가로 정제한다.
저자들은 이 2단계 접근 방식을 통해 기존 최첨단 인코더-디코더 모델보다 우수한 성능을 달성한다. 또한 제안된 방법론이 제한된 GPU 리소스에서도 효과적으로 작동함을 보여준다.
Stats
우크라이나어 문장의 평균 토큰 수는 영어 문장의 약 2배이다.
3백만 개의 필터링된 영어-우크라이나어 문장 쌍을 사용하여 첫 번째 단계 모델을 훈련했다.
17,400개의 문장을 선별하여 두 번째 단계 모델을 훈련했다.
Quotes
"우크라이나어 대규모 언어 모델을 구축하기 위해서는 자연어로 표현된 새로운 알고리즘 작업 데이터를 확장해야 한다."
"영어로 된 작업 수행 예시가 풍부하므로 고품질 번역 시스템을 통해 데이터셋 큐레이션을 가속화할 수 있다."