Core Concepts
다단계 과제에서 인간 피드백과 선호도 정렬을 통합하여 프롬프트를 자동으로 최적화하는 새로운 방법론 PROMST를 제안한다.
Abstract
이 논문은 다단계 과제를 수행하는 LLM 에이전트를 위한 프롬프트 최적화 방법론 PROMST를 소개한다. 기존 프롬프트 최적화 방법은 단일 단계 과제에 초점을 맞추었지만, 다단계 과제에서는 새로운 과제가 발생한다:
프롬프트 내용이 더 복잡하고 방대해져 LLM이 오류를 분석하기 어려워진다.
개별 단계의 영향을 평가하기 어렵다.
사람들의 과제 수행 선호도가 다양할 수 있다.
PROMST는 이러한 문제를 해결하기 위해 다음과 같은 방법을 제안한다:
인간이 설계한 피드백 규칙을 활용하여 오류에 대한 자동 피드백을 제공한다.
온라인으로 학습된 점수 예측 모델을 사용하여 프롬프트 후보를 효율적으로 선별한다.
인간이 설계한 점수 함수를 활용하여 개인의 선호도에 맞게 최적화된 프롬프트를 생성한다.
실험 결과, PROMST는 11개의 다양한 다단계 과제에서 기존 방법론보다 10.6%-29.3% 향상된 성능을 보였다. 또한 점수 함수 조정을 통해 개인의 선호도에 맞는 프롬프트를 생성할 수 있음을 보였다.
Stats
프롬프트 최적화를 통해 11개 과제에서 평균 10.6%-29.3% 성능 향상을 달성했다.
점수 함수 조정을 통해 개인의 선호도에 맞는 프롬프트를 생성할 수 있다.
Quotes
"다단계 과제에서 프롬프트 최적화는 여전히 열린 과제이다."
"인간은 오류 분석과 관련 도메인 지식 통합에 뛰어나다."
"PROMST는 인간 피드백과 점수 예측 모델의 통합을 통해 기존 방법론을 크게 능가한다."