합성 데이터는 실제 데이터의 한계를 극복하고 더 강력하고 포용적이며 신뢰할 수 있는 언어 모델을 개발하는 데 중요한 역할을 한다.
저자들은 제한된 예산 하에서 브라질 포르투갈어 텍스트 생성을 위한 두 개의 초소형 언어 모델 TeenyTinyLlama를 개발했습니다. 이 모델들은 오픈 소스로 공개되어 저자들의 방법론과 도구를 커뮤니티와 공유하고자 합니다.
밀접한 관련 언어 집단(크로아티아어, 세르비아어, 보스니아어, 몬테네그로어)에 대한 추가 사전 학습을 통해 기존 다국어 모델의 성능을 향상시킬 수 있으며, 이는 1억 개 미만의 매개변수를 가진 인코더 모델이 여전히 필요한 학술 분야에서 유용할 것으로 보인다.
Sailor는 0.5B에서 7B 매개변수 범위의 동남아시아(SEA) 언어를 위한 오픈 언어 모델 제품군입니다. 이 모델들은 다국어 사용 사례를 위한 우수한 언어 모델 Qwen1.5를 기반으로 지속적으로 사전 학습되었습니다.
윤리적이고 효율적인 다국어 ALBERT 모델을 개발하여 기존 대형 언어 모델과 비교 평가하였다. 다국어 ALBERT 모델은 기존 대형 모델에 비해 성능이 다소 낮지만, 훨씬 적은 자원으로 학습이 가능하여 생태학적 측면에서 장점이 있다.
최근 대규모 언어 모델(LLM)은 다양한 인간의 가치와 기대치를 반영하기 위해 다중 목표 선호도 정렬을 시도하고 있다. 그러나 기존 방법은 정책 모델에 매개변수가 종속되어 있어 새로운 대상 모델에 대한 정렬 알고리즘을 반복해야 하고, 정적인 정렬 목표로 인해 새로운 목표로 확장할 수 없다는 한계가 있다. 이 연구에서는 MetaAligner라는 정책 독립적이고 일반화 가능한 다중 목표 선호도 정렬 방법을 제안한다.