이 연구는 LLM의 사실적 지식 수준을 종합적으로 평가하기 위해 Head-to-Tail 벤치마크를 소개한다. 이 벤치마크는 인기도에 따라 개체와 관계를 head, torso, tail로 구분하여 LLM의 성능을 평가한다.
실험 결과, 현존하는 최고의 LLM도 전반적인 정답률이 약 31%에 불과하며, 인기도가 낮은 개체와 관계에 대해서는 더욱 낮은 성능을 보였다. 이는 LLM이 아직 사실적 지식을 충분히 내재화하지 못했음을 보여준다.
이에 따라 저자들은 지식 그래프와 LLM을 결합한 "Dual Neural KG" 개념을 제안한다. 이는 상징적 형태의 지식과 신경망 형태의 지식을 조화롭게 결합하여 사실적 지식 표현의 한계를 극복하고자 하는 것이다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Kai Sun,Yifa... lúc arxiv.org 04-04-2024
https://arxiv.org/pdf/2308.10168.pdfYêu cầu sâu hơn