Automatische Bewertung der klinischen Fähigkeiten von Großen Sprachmodellen: Metrik, Daten und Algorithmus
Große Sprachmodelle (LLMs) gewinnen zunehmend an Interesse, um die klinische Effizienz für die medizinische Diagnose zu verbessern. Um eine sichere und zuverlässige klinische Anwendung zu gewährleisten, wird die Bewertung von LLMs entscheidend, um potenzielle Risiken wie Halluzinationen besser zu mindern. In dieser Arbeit schlagen wir ein automatisches Bewertungsparadigma vor, das speziell darauf ausgerichtet ist, die Fähigkeiten von LLMs bei der Erbringung klinischer Dienstleistungen wie Krankheitsdiagnose und -behandlung zu beurteilen.