이 논문은 대규모 언어 모델(LLM)의 역할 수행 시 캐릭터의 알려진 지식 오류(KKE)와 알려지지 않은 지식 오류(UKE)를 탐지하는 능력을 탐구한다.
먼저 캐릭터 지식을 4가지 유형(사건, 관계, 태도, 정체성)으로 분류하고, 이를 바탕으로 프로빙 데이터셋을 구축하였다. 실험 결과, 최신 LLM들도 두 유형의 오류를 효과적으로 탐지하지 못하는 것으로 나타났으며, 특히 KKE 탐지가 더 어려운 것으로 확인되었다.
이를 해결하기 위해 에이전트 기반의 Self-Recollection and Self-Doubt(S2RD) 방법을 제안하였다. S2RD는 LLM의 오류 탐지 능력을 크게 향상시켰지만, 여전히 KKE 탐지가 어려운 과제로 남아있다. 이는 향후 지속적인 관심과 연구가 필요한 영역이다.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы