이 논문은 LLM 지침 튜닝을 위한 데이터 품질 향상 방법을 제안한다. 먼저 ALPACA52K 데이터셋의 6,000개 지침 쌍을 전문가들이 수동으로 검토하고 수정하였다. 이를 통해 46.8%의 지침 쌍에서 문제점이 발견되었고, 2,300개의 수정된 지침 쌍이 생성되었다.
이 수정 데이터를 활용하여 CoachLM이라는 모델을 학습시켰다. CoachLM은 저품질 지침 쌍을 자동으로 수정할 수 있으며, ALPACA52K 데이터셋의 고품질 비율을 17.7%에서 78.9%로 크게 향상시켰다.
CoachLM으로 수정된 데이터셋을 활용하여 Alpaca 모델을 재학습한 결과, 기존 Alpaca 모델 대비 29.9% 향상된 지침 수행 능력을 보였다. 이는 더 큰 규모의 LLM 모델들보다도 우수한 성능이다. 또한 CoachLM은 Huawei의 LLM 데이터 관리 시스템에 성공적으로 적용되어 40,000개 실제 지침 쌍 정제 효율을 최대 20% 개선하였다.
Başka Bir Dile
kaynak içeriğinden
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Yilun Liu,Sh... : arxiv.org 03-22-2024
https://arxiv.org/pdf/2311.13246.pdfDaha Derin Sorular