핵심 개념
대규모 언어 모델(LLM)은 사용자 또는 지식 논증 도구가 제공하는 거짓된 문맥에 쉽게 오도되어 환각을 생성한다. 이를 완화하기 위해 LLM의 입력에서 거짓된 문맥을 차단하고 진실한 문맥을 활용할 수 있는 진실 인식 문맥 선택(TACS) 방법을 제안한다.
초록
이 논문은 대규모 언어 모델(LLM)이 거짓된 문맥에 의해 오도되어 환각을 생성하는 문제를 다룬다.
입력 문맥의 진실성을 검출하기 위해 LLM의 내부 표현을 활용하여 토큰 단위 또는 문장 단위의 진실성 분류기를 구축한다.
분류기의 결과를 바탕으로 진실한 문맥을 선택하고 거짓된 문맥을 제거하는 주의 마스크를 생성한다.
생성된 주의 마스크와 사용자 입력을 결합하여 모델에 입력하여 응답을 생성한다.
실험 결과, TACS는 거짓된 문맥의 전파를 효과적으로 차단하여 LLM의 응답 품질을 크게 향상시킬 수 있음을 보여준다. 또한 진실한 정보 수용률, 거짓된 정보 저항률, 교란 적응률 등의 새로운 평가 지표를 제안하여 LLM의 진실성 유지 능력을 종합적으로 측정할 수 있다.
통계
거짓된 문맥이 제공될 때 LLM의 정답률이 10.3%로 크게 감소한다.
정확한 지식이 제공될 때 LLM의 정답률이 88.8%로 크게 증가한다.
외부 지식 없이도 LLM의 정답률이 56.7%에 달한다.
인용구
"LLM은 사용자 또는 지식 논증 도구가 제공하는 거짓된 문맥에 쉽게 오도되어 환각을 생성한다."
"진실한 정보를 유지하면서 거짓된 정보를 제거하는 TACS 방법을 통해 LLM의 응답 품질을 크게 향상시킬 수 있다."