核心概念
Ein hochdurchsatzfähiges System zur Extraktion biomedizinischer Beziehungen, das die Leseverständnisfähigkeit und das biomedizinische Fachwissen großer Sprachmodelle in skalierbarer und evidenzbasierter Weise nutzt.
摘要
Die Studie präsentiert ein innovatives Framework zur hochdurchsatzfähigen Extraktion biomedizinischer Beziehungen aus semi-strukturierten Webartikeln, das leistungsstarke Sprachmodelle (LLMs) als Schlüsselkomponente einsetzt.
Kernelemente des Ansatzes sind:
- Behandlung der Beziehungsextraktion als binäre Klassifikationsaufgabe für LLMs, die auf Basis des externen Korpus und ihres Fachwissens Entscheidungen treffen und Begründungen liefern
- Explizite Einbindung des Haupttitels als Zielentität und Abgleich aller biomedizinischen Begriffe als potenzielle Ausgangsentiäten
- Aufteilung langer Inhalte in Textabschnitte, Einbettung und Abruf der relevantesten Abschnitte zur Kontextbildung
- Evaluierung des Ansatzes anhand eines von einem Medizinexperten annotierten Benchmarkdatensatzes, der den Vergleich mit kommerziellen Modellen wie GPT-4 ermöglicht
- Extraktion von insgesamt 248.659 Beziehungstriaden zu drei Beziehungstypen aus drei renommierten biomedizinischen Websites als Demonstration der Leistungsfähigkeit und Skalierbarkeit
Das vorgestellte Framework zeigt die Effektivität bei der Nutzung der Stärken von LLMs für die hochdurchsatzfähige Extraktion biomedizinischer Beziehungen. Es ist leicht auf andere semi-strukturierte biomedizinische Websites übertragbar und ermöglicht die Extraktion verschiedenster Arten biomedizinischer Beziehungen.
統計資料
Es wurden 248.659 Beziehungstriaden zu drei Beziehungstypen aus drei biomedizinischen Websites extrahiert.
Auf der Medscape-Website wurden 80.910 (73,9%) Manifestations-, 61.339 (68,1%) Diagnose- und 118.139 (58,1%) Behandlungsbeziehungen extrahiert.
Auf der MSD Manual-Website wurden 9.354 (85,1%) Manifestations-, 9.948 (66,7%) Diagnose- und 19.130 (75,1%) Behandlungsbeziehungen extrahiert.
Auf der MedlinePlus-Website wurden 12.787 (84,8%) Manifestations-, 6.021 (68,6%) Diagnose- und 7.252 (61,3%) Behandlungsbeziehungen extrahiert.
引述
"Biomedizinische Beziehungsextraktion (BioRE) ist ein grundlegendes Forschungsthema in der biomedizinischen Verarbeitung natürlicher Sprache (BioNLP), das das Potenzial bietet, umfangreiche biomedizinische Wissensgraphen aufzubauen und die klinische Praxis zu verbessern."
"Wir formulieren die Beziehungsextraktionsaufgabe als binäre Klassifikationen für große Sprachmodelle. Insbesondere treffen die LLMs die Entscheidung auf Basis des externen Korpus und ihres Fachwissens und geben den Grund für die Beurteilung zur faktischen Überprüfung an."