대규모 언어 모델을 활용하여 에스토니아어 이해 및 생성 능력을 향상시키는 방법을 제안한다. 특히 교차 언어 지식 전이와 추가 단일어 사전 학습을 통해 성능을 개선할 수 있음을 보여준다.
언어 모델의 성능 향상을 위해 검색 보강이 효과적이지만, 이는 언어 모델 학습의 근본적인 한계를 해결하지 못한다.
오프라인 강화 학습 알고리즘 A-LOL은 사전 수집된 언어 데이터만을 활용하여 언어 모델을 효율적이고 안정적으로 학습할 수 있다. A-LOL은 전체 출력 시퀀스를 단일 행동으로 간주하고, 참조 모델의 가치 추정치와 보상 함수를 활용하여 긍정적인 이점을 가진 데이터만을 선별적으로 학습한다.
시각적 정박은 저데이터 환경에서 단어 학습의 효율성을 높일 수 있지만, 텍스트 내 단어 공동 출현 정보와 경쟁하여 그 효과가 제한적이다.
CoLLEGe는 소수의 예문을 사용하여 새로운 개념 토큰에 대한 유연하고 표현력 있는 임베딩을 생성할 수 있는 메타 학습 프레임워크이다.
LLM2LLM은 소량의 초기 데이터셋을 활용하여 반복적으로 데이터를 증강하는 기법으로, 기존 모델 미세조정 방식에 비해 성능을 크게 향상시킬 수 있다.
시각적 정보를 활용한 언어 모델 학습 알고리즘인 LexiContrastive Grounding은 기존 언어 모델 대비 단어 의미 학습 효율성과 언어 모델링 성능을 향상시킨다.
대규모 언어 모델은 "A는 B의 특징이다"와 같은 사실을 학습하지만, "B는 A의 특징이다"와 같은 역방향 사실을 일반화하지 못하는 역전 문제가 있다. 이 연구는 토큰, 단어, 개체명 보존, 랜덤 세그먼트 등 다양한 방식의 역방향 학습을 제안하여 이 문제를 해결한다.
보상 모델은 언어 모델을 사람의 선호도에 맞추는 RLHF 프로세스의 핵심이지만, 이에 대한 평가가 상대적으로 부족했다. REWARDBENCH는 보상 모델의 다양한 특성을 평가하고 이해하기 위한 벤치마크 데이터셋과 코드베이스를 제공한다.
기계 번역을 이용하여 합성 데이터를 생성하고 이를 효율적으로 필터링하여 언어 모델 학습에 활용할 수 있다.