핵심 개념
대규모 언어 모델(LLM)은 사용자 또는 지식 논증 도구가 제공하는 거짓된 문맥에 쉽게 오도되어 환각을 생성한다. 이를 완화하기 위해 LLM의 입력에서 거짓된 문맥을 차단하고 진실한 문맥을 활용할 수 있는 진실 인식 문맥 선택(TACS) 방법을 제안한다.
초록
이 논문은 대규모 언어 모델(LLM)이 거짓된 문맥에 의해 오도되어 환각을 생성하는 문제를 다룬다.
- 입력 문맥의 진실성을 검출하기 위해 LLM의 내부 표현을 활용하여 토큰 단위 또는 문장 단위의 진실성 분류기를 구축한다.
- 분류기의 결과를 바탕으로 진실한 문맥을 선택하고 거짓된 문맥을 제거하는 주의 마스크를 생성한다.
- 생성된 주의 마스크와 사용자 입력을 결합하여 모델에 입력하여 응답을 생성한다.
실험 결과, TACS는 거짓된 문맥의 전파를 효과적으로 차단하여 LLM의 응답 품질을 크게 향상시킬 수 있음을 보여준다. 또한 진실한 정보 수용률, 거짓된 정보 저항률, 교란 적응률 등의 새로운 평가 지표를 제안하여 LLM의 진실성 유지 능력을 종합적으로 측정할 수 있다.
통계
거짓된 문맥이 제공될 때 LLM의 정답률이 10.3%로 크게 감소한다.
정확한 지식이 제공될 때 LLM의 정답률이 88.8%로 크게 증가한다.
외부 지식 없이도 LLM의 정답률이 56.7%에 달한다.
인용구
"LLM은 사용자 또는 지식 논증 도구가 제공하는 거짓된 문맥에 쉽게 오도되어 환각을 생성한다."
"진실한 정보를 유지하면서 거짓된 정보를 제거하는 TACS 방법을 통해 LLM의 응답 품질을 크게 향상시킬 수 있다."