Concepts de base
데이터 품질 향상을 통해 언어 모델의 성능을 개선할 수 있다.
Résumé
이 논문은 언어 모델 파인튜닝을 위한 데이터 큐레이션 파이프라인 CLEAR를 소개한다. CLEAR는 두 단계로 구성된다:
- Auto-Filter 단계:
- 언어 모델 기반의 신뢰도 평가를 통해 데이터 품질이 낮은 예제를 자동으로 제거한다.
- 이를 통해 파인튜닝 성능을 향상시킬 수 있다.
- Auto-Correct 단계:
- 파인튜닝된 언어 모델을 활용하여 데이터셋의 일부 예제를 자동으로 수정한다.
- 수정된 데이터셋으로 다시 파인튜닝하면 성능이 더욱 향상된다.
실험 결과, CLEAR를 통해 다양한 데이터셋과 언어 모델에서 일관적으로 성능 향상을 확인할 수 있었다. 특히 기존 데이터 큐레이션 기법보다 우수한 성능을 보였다.
Stats
실험에 사용된 데이터셋은 SQuAD-N, Email-N, DROP-N이며, 각 데이터셋의 20%를 인위적으로 노이즈를 추가하였다.
성능 평가 지표는 모델 출력의 JSON 형식 준수율과 정확도이다.
Citations
"Large Language Models have become the de facto approach to sequence-to-sequence text generation tasks, but for specialized tasks/domains, a pretrained LLM lacks specific capabilities to produce accurate or well-formatted responses."
"Automatically identifying which data to filter or correct is done via LLM-derived confidence estimates, to ensure only confident modifications to the dataset."