핵심 개념
StraGo는 성공과 실패 사례 모두에서 얻은 통찰력을 활용하여 단계별 지침을 제공함으로써 LLM의 프롬프트 최적화를 위한 새로운 접근 방식을 제시하며, 다양한 작업에서 기존 방법보다 뛰어난 성능과 안정성을 보여줍니다.
초록
StraGo: 전략적 안내를 활용한 프롬프트 최적화
본 연구 논문에서는 대규모 언어 모델(LLM)의 프롬프트 최적화를 위한 새로운 방법론인 StraGo(Strategic-Guided Optimization)를 제안합니다. StraGo는 기존 방법들이 성공적인 사례에 부정적인 영향을 미치면서 실패 사례를 해결하는 프롬프트 드리프팅 문제를 해결하고, LLM의 내재적 기능에 대한 의존도를 줄이는 것을 목표로 합니다.
StraGo는 분석가, 개선자, 최적화자의 세 가지 주요 구성 요소로 이루어져 있습니다.
분석가: 각 반복에서 성공 및 실패 사례를 모두 분석하여 작업 목표 달성을 위한 핵심 요소와 실패 원인을 파악합니다. 이러한 분석을 통해 긍정적 경험과 부정적 경험을 도출합니다.
개선자: 분석가가 도출한 경험을 바탕으로 프롬프트 개선을 위한 구체적이고 실행 가능한 전략을 개발합니다. 이는 인간의 문제 해결 방식을 모방하여 '무엇', '왜', '어떻게'의 세 가지 차원에서 접근합니다.
전략 공식화: 계산 오류, 오해, 논리적 추론 오류와 같은 일반적인 오류 유형에 대한 전략을 개발하고, 이를 긍정적 및 부정적 경험을 기반으로 프롬프트를 개선하는 전략을 생성하도록 LLM을 안내하는 인컨텍스트 학습 데모로 사용합니다.
전략 선택: LLM을 사용하여 생성된 여러 전략을 평가하고, 정렬, 명확성, 타당성과 같은 기준에 따라 가장 높은 점수를 받은 전략을 선택합니다.
최적화자: 개선자로부터 생성된 전략과 분석 결과를 결합하여 프롬프트를 최적화합니다.
최적화: 각 성공 또는 실패 사례에 대해 개선자가 생성한 전략을 기반으로 수정된 프롬프트를 생성합니다.
교차: 긍정적 경험에서 파생된 프롬프트 세트와 부정적 경험에서 파생된 프롬프트 세트에서 하나씩 선택하여 교차 작업을 수행하여 하이브리드 프롬프트를 생성합니다.
의역: 이전 평가에서 높은 점수를 받은 프롬프트를 캐시에 저장하고, 각 하이브리드 프롬프트를 캐시된 프롬프트를 사용하여 의역하여 후보 프롬프트로 평가합니다. 가장 우수한 프롬프트를 다음 반복을 위한 최적화 프롬프트로 선택하거나 최종 최적화 프롬프트로 출력합니다.