Kernekoncepter
모델 생성 데이터를 활용한 자기 학습 기법(ReST𝐸𝑀)이 인간 생성 데이터를 활용하는 것보다 수학 문제 해결과 코드 생성 능력을 크게 향상시킬 수 있다.
Resumé
이 논문은 언어 모델의 문제 해결 능력을 향상시키기 위해 모델 생성 데이터를 활용하는 자기 학습 기법인 ReST𝐸𝑀을 소개한다. ReST𝐸𝑀은 다음과 같은 과정으로 이루어진다:
생성(E-step): 현재 모델로부터 다수의 출력 샘플을 생성하고, 이를 이진 보상 함수로 필터링하여 학습 데이터셋을 구축한다.
개선(M-step): 이전 단계에서 생성된 데이터셋을 활용하여 모델을 fine-tuning한다.
실험 결과, ReST𝐸𝑀을 통해 fine-tuning된 PaLM 2 모델은 수학 문제 해결(MATH) 및 코드 생성(APPS) 벤치마크에서 인간 생성 데이터를 활용한 모델보다 크게 향상된 성능을 보였다. 특히 모델 규모가 커질수록 ReST𝐸𝑀의 성능 향상 효과가 더 크게 나타났다. 또한 ReST𝐸𝑀은 pass@k 및 다수결 투표 성능도 향상시켰다.
추가 실험을 통해 ReST𝐸𝑀이 데이터셋 크기와 반복 횟수에 따라 성능이 변화함을 확인했다. 단일 반복만으로도 큰 성능 향상을 얻을 수 있지만, 여러 반복을 수행하면 더 높은 성능을 달성할 수 있다. 또한 ReST𝐸𝑀으로 fine-tuning된 모델은 관련 벤치마크(GSM8K, HumanEval, Big-Bench Hard)에서도 우수한 성능을 보였다.
종합적으로 이 연구는 모델 생성 데이터를 활용한 자기 학습 기법이 인간 생성 데이터에 의존하는 것을 줄일 수 있음을 보여준다.
Statistik
수학 문제 해결(MATH) 벤치마크에서 PaLM 2-L 모델의 pass@1 정확도가 ReST𝐸𝑀 적용 후 41.9%로 향상되었다.
코드 생성(APPS) 벤치마크에서 PaLM 2-S* 모델의 pass@1 정확도가 ReST𝐸𝑀 적용 후 24.2%로 향상되었다.
헝가리 고등학교 수학 시험에서 ReST𝐸𝑀으로 fine-tuning된 PaLM 2-L 모델이 60.5%의 점수를 받아 기존 모델 중 GPT-4를 제외하고 가장 높은 성적을 기록했다.
Citater
"ReST𝐸𝑀을 통해 fine-tuning된 모델은 인간 생성 데이터로 fine-tuning된 모델보다 수학 문제 해결 및 코드 생성 능력이 크게 향상되었다."
"모델 규모가 커질수록 ReST𝐸𝑀의 성능 향상 효과가 더 크게 나타났다."
"ReST𝐸𝑀은 pass@k 및 다수결 투표 성능도 향상시켰다."