Основные понятия
비지도 코어셋 선택을 통해 사전 학습된 언어 모델을 데이터 효율적으로 미세 조정할 수 있다.
Аннотация
이 논문은 데이터 효율적인 미세 조정 프레임워크인 DEFT-UCS를 소개한다. DEFT-UCS는 비지도 코어셋 선택을 활용하여 사전 학습된 언어 모델을 데이터 효율적으로 미세 조정할 수 있다.
구체적으로:
DEFT-UCS는 클러스터링 기반의 코어셋 선택 방법을 활용하여 대표적인 데이터 부분집합을 찾아낸다.
이를 통해 기존 대규모 데이터셋 대신 작은 데이터셋으로도 사전 학습된 언어 모델을 미세 조정할 수 있다.
실험 결과, DEFT-UCS 모델은 기존 CoEDIT 모델과 유사한 성능을 보이면서도 70% 적은 데이터로 학습되었다.
이는 DEFT-UCS가 데이터 효율적인 언어 모델 미세 조정에 효과적임을 보여준다.
Статистика
이 연구에서는 82,000개의 데이터 샘플로 구성된 CoEDIT 데이터셋을 활용했다.
DEFT-UCS 모델은 CoEDIT 데이터셋의 32.5%만을 사용해서 학습되었다.
Цитаты
"최근 발전으로 인해 많은 사전 학습된 언어 모델(PLM)을 사용할 수 있게 되었지만, 여전히 PLM을 미세 조정하기 위해 필요한 데이터의 양에 대한 의문이 남아있다."
"DEFT-UCS는 비지도 코어셋 선택을 활용하여 PLM을 미세 조정하는데 필요한 데이터의 양을 줄이는 데이터 효율적인 미세 조정 프레임워크이다."