핵심 개념
LLM의 도구 학습 성능을 향상하기 위해 단계별 보상과 최적화를 활용하는 강화 학습 프레임워크인 StepTool을 소개합니다.
초록
StepTool: LLM의 도구 학습을 위한 단계별 강화 학습 프레임워크
본 연구 논문에서는 대규모 언어 모델(LLM)이 외부 도구를 효과적으로 활용하여 복잡한 작업을 해결하는 능력을 향상시키는 것을 목표로 합니다.
본 논문에서는 단계별 보상 성형 및 단계별 최적화라는 두 가지 핵심 구성 요소를 갖춘 StepTool이라는 새로운 단계별 강화 학습 프레임워크를 제안합니다.
단계별 보상 성형
각 도구 상호 작용 단계에서 보상을 할당하여 모델의 의사 결정을 효과적으로 안내합니다.
도구 호출의 성공 여부와 전체 작업 완료에 대한 기여도, 두 가지 주요 요소를 기반으로 보상을 설계합니다.
중간 단계의 명확한 형식과 작업 지향적인 목표를 고려하여 보다 쉬운 단계별 보상을 가능하게 합니다.
단계별 최적화
RLHF와 같은 단일 단계 접근 방식의 한계를 해결하기 위해 정책 경사도를 기반으로 하는 단계별 강화 최적화 전략을 제안합니다.
동적이고 다단계 상호 작용에 대한 적응성을 보장하기 위해 이전의 모든 단계를 최적화합니다.
실험에서는 실용적인 예시로 근접 정책 최적화(PPO) 알고리즘을 구현했습니다.