Die Lesbarkeit von Patientenaufklärungsmaterialien hat einen erheblichen Einfluss auf das Verständnis und die Zugänglichkeit der Informationen, insbesondere für marginalisierte Bevölkerungsgruppen. Es besteht ein dringender Bedarf an leistungsfähigen Textvereinf achungsmodellen im Gesundheitsbereich, um die Verbreitung und Gesundheitsbildung zu verbessern.
Der Koreanische Bio-Medizinische Korpus (KBMC) ist der erste öffentlich zugängliche koreanische Datensatz für die Erkennung medizinischer benannter Entitäten, der die Leistung von Sprachmodellen bei der Identifizierung medizinischer Begriffe um mehr als 20% verbessert.
Ein MRC-basiertes Modell für die medizinische Namensnennung, das eine aufgabenadaptive Vortrainingstrategie, mehrere Wortpaar-Einbettungen und mehrstufige dilatierte Konvolution verwendet, um die Leistung bei der Erkennung verschachtelter Entitäten zu verbessern.
Durch die Verwendung von Achsenersatz und Mehrgranularitätsaggregation können neue Trainingsdaten für die Normalisierung chinesischer Krankheitsbezeichnungen generiert werden, um die Modellleistung zu verbessern.
Wir haben ein 13B-Llama2-basiertes LLM entwickelt, das speziell für medizinische Gespräche trainiert wurde und bei der automatischen Erstellung von SOAP-Notizen die Leistung von GPT-4 übertrifft.