핵심 개념
대규모 언어 모델을 활용하여 연쇄적 사고 기반의 프롬프팅 기법으로 복잡한 퍼즐을 해결하고, 앙상블 기법을 통해 성능을 향상시켰다.
초록
본 논문은 SemEval-2024 Task 9에 참여한 MasonTigers 팀의 접근 방식을 소개한다. 이 과제는 자연어 이해 능력을 평가하기 위해 다양한 유형의 퍼즐을 제공한다.
연구팀은 대규모 언어 모델(LLM)을 활용하여 이 과제를 해결하기 위해 여러 가지 프롬프팅 기법을 사용했다:
-
제로 샷 프롬프팅: 모델에게 퍼즐을 제시하고 답변을 요청했다. 이 방식의 성능은 제한적이었다.
-
소수 샷 프롬프팅: 모델에게 예제 퍼즐과 답변을 제공하고, 이를 바탕으로 새로운 퍼즐을 해결하도록 했다. 이 방식에서 성능이 향상되었다.
-
연쇄적 사고 프롬프팅: 퍼즐을 단계별로 해결하는 논리적 과정을 모델에게 제공했다. 이 방식에서 가장 좋은 성능을 보였다.
연구팀은 또한 여러 개의 연쇄적 사고 프롬프팅을 앙상블하여 예측의 신뢰도를 높였다. 이 접근법은 단일 모델보다 우수한 성능을 보였다.
실험 결과, 연쇄적 사고 프롬프팅과 앙상블 기법을 활용한 모델이 가장 좋은 성능을 보였다. 이는 대규모 언어 모델이 적절한 프롬프팅을 통해 복잡한 추론 능력을 발휘할 수 있음을 보여준다.
통계
이 과제의 데이터셋에는 총 1,100개의 다지선다형 문제가 포함되어 있다.
문장 퍼즐은 627개, 단어 퍼즐은 492개로 구성되어 있다.
문장 퍼즐의 평균 토큰 수는 34.88개, 단어 퍼즐은 10.65개이다.
문장 퍼즐의 48.32%가 30개 이상의 토큰으로 구성되어 있다.
정답 선택지의 평균 토큰 수는 문장 퍼즐 9.11개, 단어 퍼즐 3.0개이다.
인용구
"Large Language Models have achieved impressive performance on several question-answering and language-understanding tasks when provided with appropriate prompting and conditioning."
"Solving these elaborative reasoning problems remains an open challenge for natural language processing systems."
"Experiments reveal that while zero-shot performance lags due to a lack of grounding, multi-step prompts can unlock substantial reasoning ability in models."