Core Concepts
Durch den Einsatz domänenspezifischer Komponenten wie einen Abrufer, eine domänenbezogene Dokumentensammlung und Anweisungssätze kann ein Sprachmodell die Erklärungen, die es generiert, selbstständig bewerten und so die Leistung in medizinischen Frage-Antwort-Aufgaben deutlich verbessern.
Abstract
Der Artikel stellt das Self-BioRAG-Framework vor, das darauf abzielt, das Self-RAG-Modell (Asai et al., 2023) für biomedizinische und klinische Domänen zu verallgemeinern. Dieses Framework verbessert die Generierungskapazität, ermöglicht den bedarfsgesteuerten Abruf von Sachinhalten und befähigt das Modell, die von ihm generierten Erklärungen selbstständig zu bewerten.
Zunächst werden 120.000 biomedizinische Anweisungssätze aus verschiedenen Quellen zusammengestellt, die Aufgaben wie Informationsextraktion, Frage-Antwort-Generierung und Zusammenfassung abdecken. Darüber hinaus wird ein domänenspezifischer Abrufer (MedCPT) verwendet, um relevante Dokumente aus einer Sammlung biomedizinischer Korpora (PubMed, PMC, Leitlinien, Lehrbücher) abzurufen.
Anschließend wird ein kritisches Sprachmodell C trainiert, das die generierten Erklärungen anhand vordefinierter Reflexionsmarker bewertet. Dieses Modell C wird dann verwendet, um 84.000 biomedizinische Anweisungssätze zu annotieren, die wiederum zum Training des Generator-Sprachmodells M verwendet werden.
In Experimenten auf drei Frage-Antwort-Benchmarks für den biomedizinischen Bereich (MedQA, MedMCQA, MMLU-Med) zeigt Self-BioRAG signifikante Leistungsverbesserungen gegenüber state-of-the-art Sprachmodellen mit einer Parametergröße von 7 Milliarden oder weniger. Ebenso übertrifft Self-BioRAG RAG-Ansätze um durchschnittlich 8 Prozentpunkte bei der Rouge-1-Bewertung in der Generierung von profizienteren Antworten auf zwei Benchmarks für Langtext-Frage-Antwort-Aufgaben.
Die Analyse zeigt, dass Self-BioRAG die Hinweise in der Frage erkennt, bei Bedarf relevante Dokumente abruft und mit Informationen aus den abgerufenen Dokumenten und dem kodierten Wissen wie ein medizinischer Experte antwortet.
Stats
Patientin hat eine Familiengeschichte von Typ-2-Diabetes mellitus.
Patientin hatte einen Glukosetoleranztest mit einem Plasmaglukosewert von 160 mg/dL (8,9 mmol/L) nach 2 Stunden.
Patientin hat Symptome wie Akne, Hirsutismus und Adipositas, die typisch für das polyzystische Ovarialsyndrom (PCOS) sind.
Quotes
"Durch den Einsatz domänenspezifischer Komponenten wie einen Abrufer, eine domänenbezogene Dokumentensammlung und Anweisungssätze kann ein Sprachmodell die Erklärungen, die es generiert, selbstständig bewerten und so die Leistung in medizinischen Frage-Antwort-Aufgaben deutlich verbessern."
"Self-BioRAG findet die Hinweise in der Frage, ruft bei Bedarf relevante Dokumente ab und versteht, wie man mit Informationen aus den abgerufenen Dokumenten und kodiertem Wissen wie ein medizinischer Experte antwortet."