핵심 개념
SMART는 하위 모듈러 함수를 활용하여 과제 중요도 점수를 할당하고, 이를 바탕으로 과제 혼합 가중치와 각 과제에서 중복되지 않는 샘플을 선택하는 새로운 데이터 혼합 전략이다.
초록
이 논문은 대규모 다중 과제 데이터셋을 활용한 언어 모델 미세 조정을 위한 새로운 데이터 혼합 전략인 SMART를 소개한다. SMART는 두 단계로 구성된다:
- 과제 선택 단계: 하위 모듈러 함수를 사용하여 대표적인 과제 부분집합을 선택하고, 각 과제에 할당할 예산을 결정한다.
- 샘플 선택 단계: 각 과제에서 할당된 예산에 따라 대표적이고 다양한 샘플을 선택한다.
실험 결과, SMART는 기존의 데이터 혼합 전략보다 우수한 성능을 보였다. 또한 SMART를 통해 소수의 대표적인 과제만으로도 전체 과제를 활용한 것과 유사한 성능을 달성할 수 있음을 확인했다. 이는 과제 수를 늘리는 것보다 대표적인 과제에 집중하는 것이 더 효과적일 수 있음을 시사한다.
통계
전체 FLAN 2022 데이터셋은 1,840개의 과제와 17,591,640개의 (프롬프트, 응답) 쌍으로 구성되어 있다.
예산(N')이 25,000개일 때, SMART 혼합 전략은 MMLU 정확도 32.22%, BBH 정확도 50.41%를 달성했다.
예산(N')이 400,000개일 때, SMART 혼합 전략은 MMLU 정확도 39.77%, BBH 정확도 57.18%를 달성했다.
인용구
"대규모 다중 과제 데이터셋에서 과제 혼합 비율을 적절히 조절하는 것이 중요하지만, 현재 이를 위한 체계적인 방법은 없다."
"SMART는 하위 모듈러 함수를 활용하여 과제 중요도 점수를 할당하고, 이를 바탕으로 과제 혼합 가중치와 각 과제에서 중복되지 않는 샘플을 선택한다."