Core Concepts
Ein flexibles und leistungsfähiges LLM-basiertes Rahmenwerk namens Extract-Define-Canonicalize (EDC) zur Erstellung von Wissensgraphen, das hochwertige Wissensgraphen sowohl mit vordefinierten als auch ohne vorhandene Schemata extrahieren kann.
Abstract
Die Studie präsentiert ein dreiphasiges Rahmenwerk namens Extract-Define-Canonicalize (EDC) zur automatischen Erstellung von Wissensgraphen aus Eingabetexten.
In der ersten Phase, der Extraktion, werden mithilfe von Large Language Models (LLMs) Entitäts-Relation-Tripel aus dem Text extrahiert, ohne an ein vorgegebenes Schema gebunden zu sein.
In der zweiten Phase, der Definition, werden die Komponenten des induzierten Schemas (Entitätstypen und Relationstypen) durch LLMs definiert, um eine semantisch konsistente Repräsentation zu erhalten.
In der dritten Phase, der Kanonisierung, werden die extrahierten Tripel unter Verwendung der Schemakomponentendefinitionen in eine kanonische Form überführt. Dabei wird entweder ein vorhandenes Schema verwendet (Target Alignment) oder ein neues Schema selbstständig erstellt (Self Canonicalization).
Um die Leistung weiter zu verbessern, wird eine zusätzliche Verfeinerungsphase eingeführt, in der die zuvor extrahierten Tripel und relevante Teile des Schemas in den Prompt für die Extraktion einbezogen werden. Dafür wird ein trainierter Schema-Retriever verwendet, der die relevanten Schemakomponenten für den Eingabetext abruft.
Die Experimente auf drei Wissensgraph-Konstruktionsdatensätzen zeigen, dass EDC und die verfeinerte Version EDC+R die Leistung der spezialisierten State-of-the-Art-Methoden übertreffen, sowohl wenn ein Zielschema vorhanden ist als auch wenn keines existiert.
Stats
"Alan Shepard nahm an der Apollo-14-Mission teil."
"Alan Shepard wurde am 18. November 1923 geboren."
"Alan Shepard wurde 1959 von der NASA ausgewählt."
Quotes
"EDC ist ein flexibles und leistungsfähiges LLM-basiertes Rahmenwerk zur Erstellung von Wissensgraphen, das hochwertige Wissensgraphen sowohl mit vordefinierten als auch ohne vorhandene Schemata extrahieren kann."
"Die Experimente zeigen, dass EDC und die verfeinerte Version EDC+R die Leistung der spezialisierten State-of-the-Art-Methoden übertreffen."