Core Concepts
도메인 특화 데이터를 활용한 대규모 언어 모델 학습을 통해 특정 분야의 성능을 향상시킬 수 있지만, 다른 지식 영역의 성능은 저하될 수 있다.
Abstract
이 연구에서는 브라질 법률 분야의 대규모 언어 모델 Juru를 개발하였다. 1.9억 개의 고품질 토큰으로 구성된 브라질 법률 분야 데이터로 Sabiá-2 Small 모델을 추가 학습하였다.
법률 지식 평가 벤치마크에서 Juru 모델은 Sabiá-2 Small 모델 대비 약 6점 향상된 성능을 보였다. 그러나 일반 지식 평가에서는 성능이 저하되는 것을 확인하였다. 이는 도메인 특화 학습이 해당 분야의 성능을 높이지만, 다른 지식 영역에서의 성능은 감소시킬 수 있음을 보여준다.
이 연구는 대규모 언어 모델의 성능 향상을 위해 도메인 특화 데이터를 활용하는 것이 효과적임을 입증하였다. 이를 통해 모델 학습에 필요한 계산 비용을 줄일 수 있다.
Stats
총 1,999,721,118개의 Byte-Pair Encoding (BPE) 토큰을 활용하여 모델을 학습하였다.
학술 논문에서 1,806,023,152개, 연방 법규에서 60,402,071개, 판결문 및 결정문에서 133,295,895개의 토큰을 수집하였다.
Quotes
"도메인 특화 데이터를 활용한 학습을 통해 특정 분야의 성능을 향상시킬 수 있지만, 다른 지식 영역의 성능은 저하될 수 있다."
"이 연구는 대규모 언어 모델의 성능 향상을 위해 도메인 특화 데이터를 활용하는 것이 효과적임을 입증하였다. 이를 통해 모델 학습에 필요한 계산 비용을 줄일 수 있다."