Centrala begrepp
모델에게 기준을 사용하여 피드백 생성을 가르치는 것은 효과적인 방법이다.
Sammanfattning
이 논문은 대형 언어 모델이 피드백 생성에 기준을 사용하는 방법을 가르치는 일반적인 프레임워크를 제안한다. 이 프레임워크는 가이드라인을 시작으로 기준을 추출하고 컨텍스트 내 시연을 구성한다. 이후 이러한 기준과 시연을 적용하여 모델의 피드백 생성 프로세스를 안내한다. 피드백의 품질을 보다 포괄적으로 평가하기 위해 계층적 평가 방법론을 제안하여 다양한 관점에서 피드백의 품질을 측정한다. 세 가지 작성 작업과 일곱 가지 다른 LLM에 대한 실험을 통해 LLM에게 기준을 사용하는 가장 효과적인 방법에 대한 통찰을 제공한다.
Introduction
- 모델이 작성한 텍스트의 유효성과 맥락 적합성을 평가하는 것은 중요하다.
- 가이드라인을 제공하지 않거나 기준만 제공할 때 모델은 일반적으로 유효하고 맥락에 적합한 피드백을 생성한다.
Criteria Extraction
- Claude2를 사용하여 각 측면의 기준을 자동으로 추출한다.
- 전문가의 수동 검토를 통해 기준을 정제하고 중복을 제거한다.
Demonstration Input Creation
- Claude2를 사용하여 기준을 일부 위반하는 동시에 다른 기준을 준수하는 시연 입력을 구성한다.
- 인간 전문가 검토를 통해 시연 입력을 정제한다.
Demonstration Output Creation
- Claude2를 사용하여 시연 출력을 자동으로 생성한다.
- 인간 전문가가 이 출력을 정제하여 작은 문제를 해결하고 구조와 명확성을 향상시킨다.
Feedback Generation
- 주어진 LLM에 대한 피드백 텍스트를 생성하는 과정은 반복적이다.
- 각 측면에 대해 LLM에게 피드백 텍스트를 제공한다.
Statistik
기준을 추출하는 동안 사용된 프롬프트
시연 입력 생성에 사용된 프롬프트
시연 출력 생성에 사용된 프롬프트
피드백 생성에 사용된 프롬프트
Citat
"모델에게 기준을 사용하여 피드백 생성을 가르치는 것은 효과적인 방법이다." - 논문