핵심 개념
대형 언어 모델은 개방형 질문과 폐쇄형 질문을 구분하는 인식 능력이 부족하며, 이로 인해 때로는 과도하게 비결정적이거나 지루한 답변을 생성한다.
초록
이 논문은 대형 언어 모델(LLM)의 질문 인식 능력을 평가하고 이를 개선하는 방법을 제안한다.
질문 인식 평가:
- LLM은 일반적인 상식 지식이나 수학 문제와 같은 폐쇄형 질문에 대해서는 어느 정도 질문 인식 능력을 보이지만, 사실적 지식에 대한 질문에서는 이러한 능력이 부족하여 때때로 부정확하거나 부적절한 답변을 생성한다.
- 개방형 질문에 대해서도 LLM은 창의적이고 유창한 답변을 생성하지 못하고 반복적인 답변을 내놓는 경향이 있다.
질문 인식 향상 방법 - QuATS(Question Awareness Temperature Sampling):
- LLM의 출력 분포의 첨도(kurtosis)를 측정하여 질문 인식 수준을 파악한다.
- 질문의 특성에 따라 출력 분포의 첨도를 조절하는 온도 조절 기법을 제안한다.
- 이를 통해 LLM이 개방형 질문과 폐쇄형 질문을 구분하여 적절한 답변을 생성할 수 있도록 한다.
실험 결과:
- QuATS를 적용한 LLM이 다양한 벤치마크에서 성능이 향상되었다.
- 특히 폐쇄형 질문에 대한 정확도가 크게 개선되었다.
통계
폐쇄형 질문에 대한 LLaMA 2-Chat 13B 모델의 정확도가 온도 조절에 따라 58%에서 66%까지 향상되었다.
개방형 질문에 대한 LLaMA 2-Chat 13B 모델의 점수가 온도 조절에 따라 9.05에서 9.30까지 향상되었다.
인용구
"LLMs는 때로는 과도하게 비결정적이거나 지루한 답변을 생성한다."
"QuATS를 통해 LLM이 개방형 질문과 폐쇄형 질문을 구분하여 적절한 답변을 생성할 수 있도록 한다."