Core Concepts
협업을 통한 대규모 언어 모델의 데이터 품질 향상은 모델 성능 향상에 중요하다.
Stats
"PMC-LLama (Wu et al., 2023) 및 Medalpaca-flashcards (Han et al., 2023) 데이터셋에서 총 16k 샘플 사용"
"저품질 데이터 합성 과정에서 40%의 저품질 데이터 사용"
"서버에서 10개의 샘플을 앵커 데이터로 선택하여 전역 임계값 설정"
Quotes
"협업을 통한 대규모 언어 모델의 데이터 품질 향상은 모델 성능 향상에 중요하다." - Wanru Zhao
"데이터 품질 제어 파이프라인이 모델 훈련의 효과성과 신뢰성을 향상시키는 것을 실험을 통해 입증" - Content