Główne pojęcia
대규모 지식 그래프를 활용하여 대규모 언어 모델의 사실성을 효율적으로 평가하는 방법을 제안한다.
Streszczenie
이 논문은 대규모 언어 모델(LLM)의 사실성을 평가하기 위한 GraphEval 프레임워크를 제안한다. GraphEval은 대규모 지식 그래프(KG)에서 자동으로 생성된 질문을 LLM에 제시하고, 이에 대한 LLM의 응답을 평가한다.
구체적으로 다음과 같은 과정을 거친다:
- KG에서 질문과 정답 레이블을 수집한다. 부정확한 문장도 생성하여 LLM의 식별 능력을 평가한다.
- LLM의 은닉 상태를 입력받아 정답 여부를 판단하는 경량 판단 모델을 학습한다. 이를 통해 LLM의 전체 응답 생성 없이도 사실성을 평가할 수 있다.
- 학습된 판단 모델을 활용하여 KG의 모든 문장에 대해 LLM의 사실성을 평가한다.
실험 결과, GraphEval은 기존 방식 대비 더 포괄적이고 효율적인 LLM 사실성 평가를 가능하게 한다. 또한 관계 유형, 개체 유형 등 다각도의 분석을 통해 LLM의 성능을 심층적으로 이해할 수 있다.
Statystyki
대규모 지식 그래프 DBpedia에는 4,928,232개의 개체, 633개의 관계, 16,915,848개의 트리플이 포함되어 있다.
평가 데이터셋에는 2,000개의 긍정 트리플과 2,000개의 부정 트리플이 포함되어 있다.
Cytaty
"LLMs are prone to producing seemingly authentic yet factually inaccurate responses, a phenomenon known as hallucination."
"The evaluation, therefore, helps identify instances of hallucination and understand the LLM's ability to generate coherent and contextually relevant text, i.e., factuality of LLM outputs."