Grunnleggende konsepter
OAEI-LLM 데이터셋은 대규모 언어 모델의 온톨로지 매칭 오류를 이해하고 개선하기 위한 목적으로 구축되었다.
Sammendrag
이 논문은 대규모 언어 모델(LLM)의 온톨로지 매칭(OM) 작업에서 발생하는 오류, 즉 "hallucination"을 이해하기 위한 벤치마크 데이터셋 OAEI-LLM을 소개한다.
- 동기 및 필요성:
- LLM은 OM 작업에 활용되고 있지만, 도메인 지식 부족으로 인해 잘못된 매핑을 생성하거나 일부 매핑을 놓치는 "hallucination" 현상이 발생한다.
- 기존 OAEI 데이터셋은 LLM 오류를 다루지 않아, OAEI-LLM 데이터셋을 구축하여 이를 해결하고자 한다.
- 데이터셋 구축 방법:
- 기존 OAEI 데이터셋을 활용하여 LLM 기반 OM 시스템을 통해 매핑을 생성하고, 이를 OAEI 참조 매핑과 비교한다.
- 매핑 오류를 "누락", "잘못된 매핑"으로 구분하고, 잘못된 매핑의 경우 "상위 클래스 매핑", "하위 클래스 매핑", "관련 없는 매핑", "논란의 여지가 있는 매핑" 등으로 세분화한다.
- 이 정보를 OAEI 데이터셋 스키마에 확장하여 OAEI-LLM 데이터셋을 구축한다.
- 활용 사례:
- LLM의 OM 작업 성능 벤치마킹: LLM 간 오류 유형 및 빈도 비교 가능
- LLM fine-tuning을 위한 고품질 데이터셋: 오류 유형 정보 활용 가능
Statistikk
LLM이 "http://cmt#Chairman"과 "http://conference#Chair"를 매핑하지 못한 사례가 있다.
LLM이 "http://cmt#Paper"와 "http://confOf#Paper"를 잘못 매핑한 사례가 있다.
Sitater
"LLMs tend to generate synthesised answers when they do not have sufficient background knowledge or have biased domain knowledge."
"LLM hallucinations can cause an incorrect match of "http://cmt#Paper" and "http://confOf#Paper"."
"LLMs may also experience hallucinations when they encounter a missing match of "http://cmt#Chairman" and "http://conference#Chair"."