이 연구는 ChatGPT의 프롬프트 민감도를 평가하는 방법을 소개하였다. 감성 분석, 유해성 탐지, 풍자 탐지 등 3가지 감성 컴퓨팅 문제에 대해 실험을 진행하였다.
먼저 온도 매개변수 T와 top-p 매개변수의 민감도를 분석하였다. 결과적으로 보수적인 생성(T ≤ 0.3, top-p ≤ 0.7)이 더 나은 성능과 안정성을 보였다.
다음으로 다양한 프롬프트 템플릿을 평가하였다. 단순하고 전문가 정체성을 부여하는 프롬프트가 대체로 우수한 성능을 보였다. 반면 단계적 사고(Chain-of-Thought) 프롬프트는 문제에 따라 성능이 크게 달랐고, 응답 구문 분석이 어려웠다. 특별한 문구("깊게 숨 쉬기" 등)는 성능 향상에 도움이 되지 않았다. 또한 관련 없는 전문성 언급이나 잘못된 동기 부여는 성능을 크게 저하시켰다.
이 연구는 ChatGPT와 같은 언어 모델의 프롬프트 설계 및 최적화에 대한 통찰을 제공한다. 향후 연구에서는 다른 언어 모델과 다양한 과제에 대해 이 방법론을 적용할 계획이다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Tiefere Fragen