Основные понятия
다국어 대규모 언어 모델의 성능은 번역에 크게 의존하지만, 이는 언어별 지식을 포괄하지 못하고 번역 결함을 초래할 수 있다. 지침 데이터의 성격이 모델 출력에 미치는 영향과 번역된 테스트 세트가 이러한 미묘한 차이를 포착할 수 있는지 여부는 불확실하다.
Аннотация
이 연구는 지침 미세 조정 및 평가 단계에서 원어 또는 번역 데이터를 사용하여 이러한 문제를 조사한다.
실험 결과, 원어 또는 생성 벤치마크는 특히 모델 성능이 높을 때 원어와 번역 지침 데이터 간의 상당한 차이를 드러내는 반면, 다른 유형의 테스트 세트는 그렇지 않다.
왕복 번역과 단일 통과 번역 간의 비교는 언어별 자원의 지식이 중요함을 보여준다.
구조화된 작업에서는 정규화가 이 격차를 해소하는 데 도움이 되지만, 생성 작업에서는 그렇지 않다.
Статистика
원어 지침 데이터를 사용하면 번역 지침 데이터보다 TyDi QA, C-Eval, CMMLU 벤치마크에서 더 나은 성능을 보인다.
번역 지침 데이터를 사용하면 XQuAD 벤치마크에서 더 낮은 성능을 보인다.
원어 및 번역 지침 데이터 간 성능 차이는 모델 크기가 클수록 더 크게 나타난다.
Цитаты
"번역된 데이터는 원래 언어의 문화와 지식을 나타내며, 번역 과정에서 번역체와 오류가 도입될 수 있다."
"최근 연구에 따르면 지침 미세 조정은 '표면적'이며, 현재 규모에서는 지식을 향상시킬 수 없다."