Der Artikel beschreibt einen Ansatz zur Erstellung eines vielfältigen, maschinell generierten medizinischen Instruktions-Feinabstimmungs-Datensatzes (IFT) für die Optimierung von Großsprachmodellen (LLMs) für medizinische Anwendungen.
Zunächst wird ein Seed-Set von 167 klinisch kuratierten Aufgaben erstellt, das verschiedene medizinische Themen, Perspektiven, Aufgabentypen und Schwierigkeitsgrade abdeckt. Dieses Seed-Set wird dann verwendet, um GPT-4 anzuleiten, eine Reihe neuer medizinischer Aufgabeninstruktionen zu generieren. Nach einem Filterungsschritt zur Erhöhung der Textvielfalt werden die Aufgaben an ChatGPT übergeben, um Antworten zu erstellen. So entsteht der MedInstruct-52k-Datensatz mit 52.000 Instruktions-Antwort-Paaren.
Dieser Datensatz wird dann verwendet, um LLaMA-Modelle feizuabstimmen, was zu dem Modell AlpaCare führt. Umfangreiche Experimente zeigen, dass AlpaCare trotz der Verwendung eines kleineren domänenspezifischen Datensatzes als bisherige medizinische LLMs eine überlegene Leistung in medizinischen Anwendungen erzielt, mit bis zu 38,1% absolutem Gewinn gegenüber den besten Vergleichsmodellen in medizinischen Instruktionsevaluationen. Gleichzeitig erreicht AlpaCare auch 6,7% absoluten Gewinn über mehrere allgemeine Domänen-Benchmarks hinweg. Eine Humanevaluierung zeigt, dass AlpaCare die besten Vergleichsmodelle sowohl in Bezug auf Korrektheit als auch Nützlichkeit deutlich übertrifft.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xinlu Zhang,... kl. arxiv.org 04-05-2024
https://arxiv.org/pdf/2310.14558.pdfDybere Forespørgsler