이 논문은 대규모 언어 모델(LLM)의 역할 수행 시 캐릭터의 알려진 지식 오류(KKE)와 알려지지 않은 지식 오류(UKE)를 탐지하는 능력을 탐구한다.
먼저 캐릭터 지식을 4가지 유형(사건, 관계, 태도, 정체성)으로 분류하고, 이를 바탕으로 프로빙 데이터셋을 구축하였다. 실험 결과, 최신 LLM들도 두 유형의 오류를 효과적으로 탐지하지 못하는 것으로 나타났으며, 특히 KKE 탐지가 더 어려운 것으로 확인되었다.
이를 해결하기 위해 에이전트 기반의 Self-Recollection and Self-Doubt(S2RD) 방법을 제안하였다. S2RD는 LLM의 오류 탐지 능력을 크게 향상시켰지만, 여전히 KKE 탐지가 어려운 과제로 남아있다. 이는 향후 지속적인 관심과 연구가 필요한 영역이다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies