Conceptos Básicos
MAPO는 기존 프롬프트 최적화 기법인 ProTeGi를 개선하여 자연어 "긍정 그라디언트"와 모멘텀 기반 접근 방식을 사용하여 LLM 프롬프트 개선의 효율성과 효과를 향상시키는 새로운 기법이다.
Resumen
MAPO: 모멘텀 기반 프롬프트 최적화 기법 소개
본 연구 논문에서는 대규모 언어 모델 (LLM)의 프롬프트 최적화를 위한 새로운 기법인 MAPO (Momentum-Aided Prompt Optimization)를 소개합니다. MAPO는 기존의 ProTeGi (Pryzant et al., 2023) 기법을 기반으로 하며, 자연어 "긍정 그라디언트"와 모멘텀 기반 접근 방식을 사용하여 프롬프트 개선의 효율성과 효과를 향상시킵니다.
최근 ChatGPT (OpenAI, 2022)와 같은 대규모 언어 모델 (LLM)의 등장으로 새로운 프롬프트 기술이 개발되어 LLM 성능이 크게 향상되었습니다. 그러나 프롬프트는 여전히 불명확하거나 편향되거나 불완전할 수 있으며, 이는 LLM의 기능을 제한합니다. 따라서 프롬프트 엔지니어링의 중요성이 강조되고 있지만, 현재의 방법은 수동 조정이 필요한 경우가 많아 시간이 많이 소요되고 오류가 발생하기 쉬우며 인간의 한계에 의해 제약됩니다. 이는 프롬프트 품질을 향상시키기 위한 자동화된 시스템의 필요성을 증가시킵니다.
MAPO는 ProTeGi를 확장한 기법으로, 긍정적인 자연어 "그라디언트"와 모멘텀을 사용하여 프롬프트 개선을 자동화합니다. 그라디언트는 미니 배치의 올바른 예제에서 생성되며, LLM이 일관된 의미 방향으로 프롬프트를 개선하도록 안내합니다. 빔 검색은 후보 풀을 확장하고, UCB(Upper Confidence Bound) 알고리즘을 사용하는 최적 arm 식별 알고리즘은 추가 평가를 위해 상위 프롬프트를 선택합니다.
모멘텀의 역할
MAPO는 모멘텀 기반 조정을 통해 ProTeGi를 개선하여 수렴 속도를 높이고 리소스 사용을 줄입니다. 모멘텀은 전통적인 그라디언트 디센트에서 안정성과 수렴을 개선하기 위해 사용되는 개념으로, 모델이 진동과 지역 최솟값을 피하여 전역 최솟값에 더 효율적으로 도달하도록 돕습니다. MAPO는 과거 그라디언트의 히스토리를 추적하여 지역 최솟값과 진동을 방지하고, 각 빔 검색 라운드에서 초기 프롬프트 p의 이동을 의미 공간을 통해 안내하여 점진적인 개선이 아닌 최적의 프롬프트로 수렴하도록 돕습니다.