Core Concepts
프롬프트의 작은 변화와 제한 해제(jailbreak)가 대형 언어 모델의 성능에 큰 영향을 미칠 수 있다.
Abstract
이 연구는 프롬프트의 변화가 대형 언어 모델(LLM)의 예측 결과에 미치는 영향을 조사했다.
주요 내용은 다음과 같다:
출력 형식 지정, 프롬프트 미세 변경, 제한 해제(jailbreak) 등 다양한 프롬프트 변화를 적용했을 때 LLM의 예측 결과가 상당히 변화한다는 것을 확인했다. 심지어 공백 하나를 추가하는 것만으로도 ChatGPT의 예측 결과가 500건 이상 변경되었다.
프롬프트 변화에 따른 정확도 변화를 분석한 결과, 일반적으로 Python List 형식이나 지정된 형식 없이 사용하는 것이 가장 좋은 성능을 보였다. 그러나 일부 변화에서는 오히려 성능이 향상되기도 했다.
프롬프트 변화에 따른 예측 결과의 유사성을 다차원 척도법(MDS)으로 분석한 결과, 출력 형식 변경이 가장 큰 영향을 미치는 것으로 나타났다. 반면 단순 변경은 기본 프롬프트와 유사한 결과를 보였다.
인간 평가자의 의견 불일치와 모델 예측 변화 간의 상관관계를 분석한 결과, 약한 음의 상관관계가 있었다. 즉, 평가자 간 의견이 일치하지 않는 경우에도 모델 예측이 크게 변하지는 않았다.
이 연구 결과는 프롬프트 설계 시 주의해야 할 사항을 보여주며, 더 안정적인 LLM 활용을 위한 방향을 제시한다.
Stats
프롬프트 변화에 따라 최대 2,500건의 예측 결과 변화가 발생했다.
ChatGPT에서 AIM과 Dev Mode v2 제한 해제 시 약 90%의 응답이 유효하지 않았다.
Llama-7B 모델에서 $1, $10, $100 팁을 제공하면 다른 변화에 비해 성능이 크게 향상되었다.
Quotes
"심지어 공백 하나를 추가하는 것만으로도 ChatGPT의 예측 결과가 500건 이상 변경되었다."
"일반적으로 Python List 형식이나 지정된 형식 없이 사용하는 것이 가장 좋은 성능을 보였다."
"프롬프트 변화에 따른 예측 결과의 유사성을 분석한 결과, 출력 형식 변경이 가장 큰 영향을 미치는 것으로 나타났다."