Diese Studie untersucht die Fähigkeiten großer Sprachmodelle (LLMs) wie GPT-3.5-Turbo, GPT-4 und GPT-4-Turbo bei der Extraktion strukturierter Informationen aus wissenschaftlichen Dokumenten der Materialwissenschaften. Der Schwerpunkt liegt dabei auf zwei wichtigen Aufgaben der Informationsextraktion: (i) der Erkennung benannter Entitäten (NER) von untersuchten Materialien und physikalischen Eigenschaften und (ii) der Extraktion von Beziehungen (RE) zwischen diesen Entitäten.
Aufgrund des offensichtlichen Mangels an Datensätzen innerhalb der Materialinformatik (MI) wurde die Leistung der LLMs unter Verwendung von SuperMat, basierend auf der Supraleitungsforschung, und MeasEval, einem allgemeinen Messevaluierungskorpus, bewertet. Die Leistung der LLMs bei der Ausführung dieser Aufgaben wird mit traditionellen Modellen auf Basis der BERT-Architektur und regelbasierten Ansätzen (Baseline) verglichen.
Die Ergebnisse zeigen, dass LLMs zwar relevante Fähigkeiten zum Verständnis und zur Verknüpfung komplexer Konzepte aufweisen, aber für Aufgaben, die spezifisches Domänenwissen erfordern, wie die Extraktion komplexer materialwissenschaftlicher Entitäten, derzeit weniger geeignet sind als spezialisierte Modelle. Für die Materialextraktion erreichen die LLMs in Zero-Shot-Prompting und auch mit wenigen Beispielen (Few-Shot-Prompting) deutlich schlechtere Ergebnisse als die Baseline. Allerdings übertrifft ein GPT-3.5-Turbo-Modell, das mit der richtigen Strategie für RE fein abgestimmt wurde, alle Modelle einschließlich der Baseline. Ohne jegliches Finetuning zeigen GPT-4 und GPT-4-Turbo bemerkenswerte Reasoning- und Beziehungsextraktionsfähigkeiten, nachdem ihnen nur ein paar Beispiele gegeben wurden, und übertreffen damit die Baseline.
To Another Language
from source content
arxiv.org
Głębsze pytania