다국어 대규모 언어 모델의 성능은 번역에 크게 의존하지만, 이는 언어별 지식을 포괄하지 못하고 번역 결함을 초래할 수 있다. 지침 데이터의 성격이 모델 출력에 미치는 영향과 번역된 테스트 세트가 이러한 미묘한 차이를 포착할 수 있는지 여부는 불확실하다.
다국어 사전 훈련 대형 언어 모델을 유창하고 도움이 되는 조수로 적응시키는 것은 다양한 언어 지역에서 사용을 촉진하는 데 필수적이다. 이를 위해 우리는 가장 많이 사용되는 인도-유럽어 언어 선택에 대한 병렬 지시 튜닝 벤치마크에서 다국어 모델의 성능을 광범위하게 연구하는 최초의 연구를 수행했다.
다국어 역방향 지침(MURI) 방법론을 통해 저자원 언어를 위한 고품질 지침 조정 데이터셋을 생성할 수 있다.
다국어 환경에서 대규모 언어 모델의 다단계 추론 능력을 향상시키기 위해 Tree-of-Thoughts 기반의 Cross-ToT 방법을 제안한다.
MEDIT은 다국어 대규모 사전 훈련 언어 모델을 지침 튜닝하여 다국어 텍스트 편집 작업을 수행할 수 있는 모델이다.
다국어 환경에서 얼굴과 음성의 연관성을 분석하고 이해하는 것이 이 챌린지의 핵심 목표이다.