핵심 개념
대규모 언어 모델의 역할 수행 시 캐릭터의 알려진 지식 오류(KKE)와 알려지지 않은 지식 오류(UKE)를 효과적으로 탐지하는 것이 어려운 과제이다.
초록
이 논문은 대규모 언어 모델(LLM)의 역할 수행 시 캐릭터의 알려진 지식 오류(KKE)와 알려지지 않은 지식 오류(UKE)를 탐지하는 능력을 탐구한다.
먼저 캐릭터 지식을 4가지 유형(사건, 관계, 태도, 정체성)으로 분류하고, 이를 바탕으로 프로빙 데이터셋을 구축하였다. 실험 결과, 최신 LLM들도 두 유형의 오류를 효과적으로 탐지하지 못하는 것으로 나타났으며, 특히 KKE 탐지가 더 어려운 것으로 확인되었다.
이를 해결하기 위해 에이전트 기반의 Self-Recollection and Self-Doubt(S2RD) 방법을 제안하였다. S2RD는 LLM의 오류 탐지 능력을 크게 향상시켰지만, 여전히 KKE 탐지가 어려운 과제로 남아있다. 이는 향후 지속적인 관심과 연구가 필요한 영역이다.
통계
캐릭터의 알려진 지식 오류(KKE)에 대한 LLaMA3-8b 모델의 평균 탐지 정확도는 64.85%이다.
캐릭터의 알려지지 않은 지식 오류(UKE)에 대한 LLaMA3-8b 모델의 평균 탐지 정확도는 91.31%이다.
S2RD 방법을 적용한 LLaMA3-8b 모델의 KKE와 UKE 평균 탐지 정확도는 각각 64.85%와 91.31%로, Vanilla 모델 대비 각각 37.85%와 33.13% 향상되었다.
인용구
"LLMs are more prone to making errors with known knowledge, about 20% lower than with unknown knowledge."
"KKE unexpectedly showed a disadvantage of about 20% lower than UKE."