核心概念
Die Feinabstimmung von Sprachmodellen auf Instruktionen (IFT) ist entscheidend, um Großsprachmodelle (LLMs) an vielfältige menschliche Bedürfnisse anzupassen. Dieser Ansatz zeigt großes Potenzial für medizinische Anwendungen. Allerdings konzentrieren sich bisherige Studien hauptsächlich auf die Feinabstimmung von LLMs auf begrenzte biomedizinische Datensätze, was ihre Leistung bei der Befolgung medizinischer Instruktionen und ihre Übertragbarkeit einschränkt. Um diese Lücke zu schließen, schlagen wir die Erstellung eines vielfältigen, maschinell generierten medizinischen IFT-Datensatzes vor, der LLMs wie LLaMA-Modelle durch Feinabstimmung zu einer überlegenen Leistung in medizinischen Anwendungen und einer stärkeren Generalisierbarkeit befähigt.
要約
Der Artikel beschreibt einen Ansatz zur Erstellung eines vielfältigen, maschinell generierten medizinischen Instruktions-Feinabstimmungs-Datensatzes (IFT) für die Optimierung von Großsprachmodellen (LLMs) für medizinische Anwendungen.
Zunächst wird ein Seed-Set von 167 klinisch kuratierten Aufgaben erstellt, das verschiedene medizinische Themen, Perspektiven, Aufgabentypen und Schwierigkeitsgrade abdeckt. Dieses Seed-Set wird dann verwendet, um GPT-4 anzuleiten, eine Reihe neuer medizinischer Aufgabeninstruktionen zu generieren. Nach einem Filterungsschritt zur Erhöhung der Textvielfalt werden die Aufgaben an ChatGPT übergeben, um Antworten zu erstellen. So entsteht der MedInstruct-52k-Datensatz mit 52.000 Instruktions-Antwort-Paaren.
Dieser Datensatz wird dann verwendet, um LLaMA-Modelle feizuabstimmen, was zu dem Modell AlpaCare führt. Umfangreiche Experimente zeigen, dass AlpaCare trotz der Verwendung eines kleineren domänenspezifischen Datensatzes als bisherige medizinische LLMs eine überlegene Leistung in medizinischen Anwendungen erzielt, mit bis zu 38,1% absolutem Gewinn gegenüber den besten Vergleichsmodellen in medizinischen Instruktionsevaluationen. Gleichzeitig erreicht AlpaCare auch 6,7% absoluten Gewinn über mehrere allgemeine Domänen-Benchmarks hinweg. Eine Humanevaluierung zeigt, dass AlpaCare die besten Vergleichsmodelle sowohl in Bezug auf Korrektheit als auch Nützlichkeit deutlich übertrifft.
統計
Die Feinabstimmung von LLaMA-Modellen auf den MedInstruct-52k-Datensatz führt zu bis zu 38,1% absolutem Gewinn gegenüber den besten Vergleichsmodellen in medizinischen Instruktionsevaluationen.
AlpaCare erreicht 6,7% absoluten Gewinn über mehrere allgemeine Domänen-Benchmarks hinweg.
引用
"Instruction-finetuning (IFT) has become crucial in aligning Large Language Models (LLMs) with diverse human needs and has shown great potential in medical applications."
"To better align with human intent, Wang et al. (2023b) introduces the concept of fine-tuning LLMs using diverse machine-generated instruction-response pairs."
"Even substantial volumes, these datasets are limited in task scopes and instructions, primarily focusing on medical benchmarks or specific topics, due to the high cost of collecting real-world instruction datasets (Wang et al., 2023b), particularly when extending further into the medical domain(Jin et al., 2021; 2019)."