핵심 개념
협업을 통한 대규모 언어 모델의 데이터 품질 향상은 모델 성능 향상에 중요하다.
초록
ICLR 2024 워크샵 DPFM에서 수락된 논문
공개 도메인 데이터에 대한 의존성이 높아지면서 품질 높은 비공개 도메인 데이터의 중요성이 부각됨
데이터 품질 향상을 위한 파이프라인 제안
지역적으로 모델을 훈련시키는 동안 개인 데이터를 공유하지 않고 데이터 품질을 제어하는 방법 제시
데이터 품질 제어를 위한 지표 계산 및 통합 표준 설정
데이터 품질 제어 파이프라인이 모델 훈련의 효과성과 신뢰성을 향상시키는 것을 실험을 통해 입증
다양한 데이터 품질 제어 방법에 대한 비교 분석
데이터 품질 제어를 위한 전체적인 워크플로우 설명
데이터 품질 제어를 위한 지역 데이터 점수화 및 품질 제어 방법 설명
앵커 데이터를 사용한 통합 점수화 방법의 효과적인 성능 입증
통계
"PMC-LLama (Wu et al., 2023) 및 Medalpaca-flashcards (Han et al., 2023) 데이터셋에서 총 16k 샘플 사용"
"저품질 데이터 합성 과정에서 40%의 저품질 데이터 사용"
"서버에서 10개의 샘플을 앵커 데이터로 선택하여 전역 임계값 설정"
인용구
"협업을 통한 대규모 언어 모델의 데이터 품질 향상은 모델 성능 향상에 중요하다." - Wanru Zhao
"데이터 품질 제어 파이프라인이 모델 훈련의 효과성과 신뢰성을 향상시키는 것을 실험을 통해 입증" - Content