核心概念
대규모 언어 모델(LLM)은 생성 중간에도 응답을 다시 생성하면 더 나은 결과를 얻을 수 있는지 여부를 예측하여 추론 시간 연산을 최적화하고 더 나은 응답을 생성할 수 있다.
摘要
서지 정보
- Rohin Manvi, Anikait Singh, Stefano Ermon. (2024). Adaptive Inference-Time Compute: LLMs Can Predict if They Can Do Better, Even Mid-Generation. arXiv:2410.02725v1 [cs.CL]
연구 목적
본 연구는 대규모 언어 모델(LLM)의 추론 시간 연산을 최적화하여 더 효율적이고 확장 가능한 방식으로 고품질 응답을 생성하는 것을 목표로 한다. 특히, LLM이 생성 중간에도 응답의 품질을 자체 평가하여 불필요한 연산을 줄이고 성능을 향상시키는 방법을 제시한다.
방법론
본 연구에서는 LLM이 생성한 응답에 자체 평가 프롬프트를 추가하고, 미리 정의된 토큰("예" 또는 "아니오")의 우도를 기반으로 응답을 다시 생성할지 여부를 예측하는 "역량 인식 자체 평가" 방법을 제안한다. 이를 위해, 기존의 보상 모델을 사용하여 생성된 응답 쌍에 대한 선호도 데이터셋을 구축하고, LLM을 fine-tuning하여 자체 평가 능력을 향상시킨다. 또한, 적응형 샘플링 및 조기 가지치기 기술을 통해 LLM이 필요에 따라 연산 자원을 동적으로 할당하여 효율성을 극대화한다.
주요 결과
- LLM은 자체 평가를 통해 생성 중간에도 응답의 품질을 효과적으로 예측할 수 있으며, 이를 통해 Best-of-N 샘플링과 같은 기존 방법보다 효율적으로 고품질 응답을 생성할 수 있다.
- 적응형 샘플링 및 조기 가지치기 기술은 LLM의 추론 시간 연산을 최적화하여 적은 수의 샘플만으로도 높은 성능을 달성할 수 있도록 한다.
- 실험 결과, AlpacaEval 벤치마크에서 GPT-4 대비 34%의 승률을 달성하고, GSM8K 수학 문제 해결 정확도를 84%에서 91%로 향상시키는 등 다양한 작업에서 성능이 향상되었다.
결론
본 연구는 LLM의 자체 평가 능력을 활용하여 추론 시간 연산을 최적화하고 고품질 응답을 생성하는 효과적인 방법을 제시한다. 이는 LLM을 다양한 실제 응용 프로그램에 더욱 효율적이고 확장 가능하게 적용할 수 있도록 한다.
제한점 및 향후 연구 방향
- 적응형 샘플링은 배치 크기를 기하급수적으로 늘리더라도 여전히 대기 시간 증가를 초래할 수 있다.
- 자체 평가 모델의 정확도와 효율성을 더욱 향상시키기 위한 추가 연구가 필요하다.
- 다양한 유형의 검색 작업(예: 빔 검색)에 적응형 자체 평가를 적용하는 방법을 모색할 수 있다.
統計資料
Llama 3.1 8B 모델을 사용하여 실험을 진행하였다.
AlpacaEval 벤치마크에서 GPT-4 대비 16개 샘플을 사용하여 34%의 승률을 달성했다.
GSM8K 수학 문제 데이터셋에서 정확도가 84%에서 91%로 향상되었다.
적응형 샘플링을 통해 평균 1.2개의 샘플만 사용하여 16개 샘플을 사용했을 때와 거의 동일한 성능 향상을 달성했다.
조기 가지치기를 통해 생성된 토큰 수를 최대 56%까지 줄였다.
引述
"As large language models (LLMs) continue to advance, delivering high-quality responses across diverse applications becomes increasingly important."
"In this work, we introduce a new reward modeling paradigm, which we denote as capability-aware self-evaluations."
"Our approach allows for more efficient and scalable use of compute resources during inference."