Core Concepts
의료 분야에서 프롬프트 엔지니어링 기법은 대규모 언어 모델의 잠재력을 활용하는 데 핵심적이지만, 이에 대한 체계적인 연구가 부족한 실정이다. 본 연구는 최근 의료 분야에서 수행된 프롬프트 엔지니어링 관련 연구를 종합적으로 분석하여 현황을 파악하고 향후 발전 방향을 제시한다.
Abstract
이 연구는 2022년부터 2024년 사이에 발표된 114편의 최근 연구를 체계적으로 분석하였다. 주요 결과는 다음과 같다:
프롬프트 설계(Prompt Design, PD)가 가장 많이 다루어진 기법으로, 78편의 논문이 이를 다루었다. 반면 프롬프트 학습(Prompt Learning, PL)과 프롬프트 튜닝(Prompt Tuning, PT)은 각각 29편과 19편의 논문에서 다루어졌다.
PD 연구에서는 ChatGPT가 가장 많이 사용된 모델이었으며, 7편의 논문에서 민감한 임상 데이터를 다루었다. 프롬프트 기법 중에서는 Chain-of-Thought가 가장 일반적으로 사용되었다.
PL과 PT 연구에서는 일반적으로 기존 모델 대비 성능 향상을 보고하였지만, PD 연구의 64%는 비프롬프트 기반 기준선을 제시하지 않아 실제 성능 향상 여부를 판단하기 어려웠다.
언어 사용 측면에서 영어가 압도적으로 많았지만, 중국어 등 다른 언어 연구도 일부 존재했다. 그러나 영어 이외의 언어 사용은 명시적으로 언급되는 경향이 있었다.
향후 연구를 위해 프롬프트 엔지니어링 관련 상세 보고 지침을 제안하였다. 이를 통해 연구의 투명성과 재현성을 높일 수 있을 것으로 기대된다.
Stats
대규모 언어 모델 중 ChatGPT가 가장 많이 사용되었다.
7편의 논문에서 민감한 임상 데이터를 다루었다.
Chain-of-Thought 기법이 가장 일반적으로 사용되었다.
PL과 PT 연구의 대부분은 기존 모델 대비 성능 향상을 보고하였지만, PD 연구의 64%는 기준선 없이 수행되었다.
영어 논문이 압도적으로 많았지만, 중국어 등 다른 언어 연구도 일부 존재했다.
Quotes
"프롬프트 엔지니어링은 대규모 언어 모델(LLM)의 잠재력을 활용하는 데 핵심적이다."
"의료 분야에서 전문 용어와 표현의 사용으로 인해 프롬프트 엔지니어링의 효과성이 중요하게 다루어져야 한다."
"Chain-of-Thought 프롬프트 기법은 일관적으로 제로샷 및 피샷 방식을 능가하는 성능을 보였다."