Core Concepts
본 논문은 인간 평가를 활용하여 연쇄 추론 프롬프트 엔지니어링 프로세스를 최적화하는 새로운 방법을 제안한다.
Abstract
이 논문은 SemEval-2024 Task 9에 참여한 Mothman 팀의 연구 내용을 다룹니다. 이 과제는 창의적 문제 해결 능력을 평가하는 것을 목표로 하며, 대규모 언어 모델의 성능이 좋지 않은 것으로 나타났습니다.
저자들은 GPT-4 모델을 사용하여 연쇄 추론 프롬프팅(Chain-of-Thought Prompting)을 반복적으로 최적화하는 새로운 방법을 제안합니다. 이 방법은 인간 평가를 활용하여 프롬프트를 개선하고, 데이터 자체의 문제점을 식별합니다.
구체적인 과정은 다음과 같습니다:
무작위로 학습 데이터를 샘플링하고 기본적인 연쇄 추론 프롬프트를 생성합니다.
모델 출력의 추론 유형을 구분하여 학습 데이터를 분할합니다.
각 유형별로 인간 평가를 수행하여 특정 문제를 식별합니다.
새로운 연쇄 추론 프롬프트를 개발하여 이전 결과를 반영합니다.
필요한 경우 데이터 수집/합성을 위한 개선 방향을 식별합니다.
이 과정을 통해 저자들은 대립 데이터셋에서 모델 성능을 크게 향상시킬 수 있었습니다. 또한 데이터 자체의 문제점을 식별하여 향후 데이터 수집 및 합성을 위한 지침을 제공합니다.
Stats
연쇄 추론 프롬프트를 사용하면 기본 데이터셋에서 95%, 대립 데이터셋에서 80% 이상의 정확도를 달성할 수 있습니다.
인간 참가자의 평균 정확도는 기본 데이터셋에서 84.2%, 대립 데이터셋에서 60.0%입니다.
일부 대립 데이터셋 문제의 경우 여러 논리적 옵션이 존재하거나 제공된 전제로는 답변할 수 없는 것으로 확인되었습니다.
Quotes
"본 논문은 인간 평가를 활용하여 연쇄 추론 프롬프트 엔지니어링 프로세스를 최적화하는 새로운 방법을 제안한다."
"이 과정을 통해 저자들은 대립 데이터셋에서 모델 성능을 크게 향상시킬 수 있었다."
"또한 데이터 자체의 문제점을 식별하여 향후 데이터 수집 및 합성을 위한 지침을 제공한다."