Zuverlässigkeitsbewertung von Großsprachmodellen als Assistenten im biomedizinischen Bereich
Großsprachmodelle (LLMs) werden zunehmend in verschiedenen Anwendungsbereichen eingesetzt, darunter auch im sensiblen Bereich der Biomedizin. Allerdings ist ihre Zuverlässigkeit in realistischen Anwendungsfällen bisher unzureichend erforscht. In dieser Arbeit stellen wir den Reliability AssesMent for Biomedical LLM Assistants (RAmBLA) Rahmen vor und evaluieren, ob vier führende Großsprachmodelle als zuverlässige Assistenten im biomedizinischen Bereich dienen können.