Das vorgeschlagene Bewertungsparadigma umfasst drei Hauptelemente: Metrik, Daten und Algorithmus.
Metrik: Basierend auf professionellen klinischen Behandlungspfaden formulieren wir einen LLM-spezifischen klinischen Pfad (LCP), um die klinischen Fähigkeiten zu definieren, die ein Arzt-Agent besitzen sollte. Diese Fähigkeiten umfassen Informationsvollständigkeit, Verhaltensstandarisierung, Führungsrationalität, diagnostische Logik, Behandlungslogik und klinische Anwendbarkeit.
Daten: Standardisierte Patienten (SPs) aus der medizinischen Ausbildung werden als Richtlinie für die Datenerhebung eingeführt, um die Vollständigkeit des Bewertungsverfahrens sicherzustellen. Die Patienteninformationen werden in einer zweistufigen Datenstruktur erfasst, um die Konsistenz und Genauigkeit zu gewährleisten.
Algorithmus: Basierend auf der Retrieval-Augmented Generation (RAG)-Technik entwickeln wir einen Retrieval-Augmented Evaluator (RAE), um die interaktive Umgebung zwischen SPs und einem Arzt-Agenten zu simulieren. RAE kann automatisch bewerten, ob sich das Verhalten des Arzt-Agenten mit LCP in Einklang bringt.
Durch die Anwendung dieses Paradigmas haben wir einen Bewertungsbenchmark im Bereich der Urologie entwickelt, der LCP, SPs-Datensätze und den automatisierten RAE umfasst. Umfangreiche Experimente zeigen die Wirksamkeit des vorgeschlagenen Ansatzes und liefern weitere Erkenntnisse für eine sichere und zuverlässige Implementierung von LLMs in der klinischen Praxis.
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések