核心概念
대규모 언어 모델의 인스트럭션 미세 조정에 널리 사용되는 인스트럭션 선택 전략들이 다양한 데이터셋, 예산, 평가 지표에서 일관성 있게 랜덤 샘플링보다 우수한 성능을 보이지 못하며, 선택 비용 대비 효율성 또한 떨어진다.
要約
인스트럭션 선택 전략의 한계: 랜덤 샘플링과의 비교 분석
이 연구 논문은 대규모 언어 모델(LLM)의 인스트럭션 미세 조정에 널리 사용되는 인스트럭션 선택 전략들의 효과와 효율성에 대한 의문을 제기합니다. 저자들은 다양한 소스 데이터셋, 선택 예산, 평가 벤치마크를 사용하여 인스트럭션 선택 전략들을 랜덤 샘플링과 비교 분석했습니다.
본 연구는 인스트럭션 선택 전략들이 실제로 LLM의 성능 향상에 기여하는지, 그리고 선택에 소요되는 비용 대비 효율적인지를 검증하고자 합니다.
저자들은 FLAN, DOLLY, EVOL, ALPACA 등 다양한 인스트럭션 데이터셋과 IFEVAL, ALPACAEVAL, LLMBAR, OPENLLM 등 여러 평가 벤치마크를 사용하여 실험을 진행했습니다. 또한, Alpagasus, Longest, Cherry, DEITA 등 널리 사용되는 인스트럭션 선택 전략들을 랜덤 샘플링과 비교 분석했습니다.