Core Concepts
Supervised Fine-Tuned Modelle sind immer noch relevant und effektiver als allgemeine Sprachmodelle für die Absichtserkennung und Entitätsextraktion aus biomedizinischen Texten.
Abstract
Die Studie untersucht die Leistungsfähigkeit von Supervised Fine-Tuned Modellen und großen Sprachmodellen (LLMs) bei der Absichtserkennung und Entitätsextraktion aus biomedizinischen Texten.
Für die Absichtserkennung werden drei Datensätze verwendet - CMID, KUAKE-QIC und ein selbst erstellter "Intent-Merged" Datensatz. Die Ergebnisse zeigen, dass Supervised Fine-Tuned Modelle wie RoBERTa die Instruction-Tuned ChatGPT deutlich übertreffen.
Für die Entitätsextraktion werden fünf biomedizinische Datensätze (JNLPBA, DDI, BC5CDR, NCBI-Disease, AnatEM) verwendet. Es werden verschiedene Supervised Fine-Tuned Modelle (BERT, RoBERTa, BioBERT, PubMedBERT, etc.) sowie LLMs wie ChatGPT evaluiert. Die Ergebnisse zeigen, dass PubMedBERT und BINDER-PubMedBERT die besten Ergebnisse erzielen und ChatGPT deutlich übertreffen, selbst mit nur 5 Trainingsbeispielen.
Die Studie zeigt, dass domänenspezifische Supervised Fine-Tuned Modelle immer noch relevant und effektiver sind als allgemeine LLMs für komplexe Aufgaben in der biomedizinischen Textverarbeitung.
Stats
Das PubMedBERT-Modell erreicht mit nur 5 Trainingsbeispielen einen F1-Score von 64,53% auf dem BC5CDR-Datensatz, während ChatGPT nur 44,68% erreicht.
Das BINDER-PubMedBERT-Modell erreicht mit 100 Trainingsbeispielen einen F1-Score von 91,88% auf dem BC5CDR-Datensatz.
Quotes
"Supervised Fine Tuned Ansätze sind immer noch relevant und effektiver als allgemeine Sprachmodelle für die Absichtserkennung und Entitätsextraktion aus biomedizinischen Texten."
"Das PubMedBERT-Modell kann ChatGPT auf 4 biomedizinischen NER-Benchmarks mit nur 5 Trainingsbeispielen übertreffen."