Core Concepts
대형 언어 모델의 추론 능력 향상을 위해 프롬프트 최적화 기법을 적용하여 임상시험 보고서 섹션과 문장 간 추론 관계를 파악할 수 있다.
Abstract
이 논문은 SemEval 2024 Task 2 챌린지를 위한 기준선 모델을 제시합니다. 이 과제의 목표는 임상시험 보고서 섹션과 문장 간의 추론 관계(함축 vs. 모순)를 파악하는 것입니다.
저자들은 LLM Instruct 모델을 활용하여 프롬프트 최적화 기법을 적용했습니다. 최근 연구 결과와 일치하게, 합성 CoT(Chain-of-Thought) 프롬프트가 수동으로 작성한 프롬프트보다 성능을 크게 향상시킨 것으로 나타났습니다.
구체적으로 다음과 같은 3가지 프롬프트 최적화 기법을 평가했습니다:
OPRO 접근법: 레이블링된 예시를 반복하여 가장 효과적인 지시문을 찾는 방식
자체 생성 CoT: 추론 과정을 설명하는 CoT 프롬프트를 생성하는 방식
동적 one-shot CoT: 유사한 예시를 활용하여 one-shot 프롬프팅을 수행하는 방식
이 중 Zero-shot CoT 프롬프트가 가장 높은 F1 점수(0.70)를 달성했으며, 동적 one-shot CoT 프롬프트가 가장 높은 일관성(0.71) 및 충실도(0.89) 점수를 기록했습니다.
Stats
임상시험 보고서 섹션의 평균 길이는 265단어입니다.
문장의 평균 길이는 19.5단어입니다.