Core Concepts
Das Jahr 2023 markierte einen bedeutenden Anstieg der Erforschung der Anwendung von Large Language Model (LLM) Chatbots, insbesondere ChatGPT, in verschiedenen Disziplinen. Wir haben die Anwendungen von ChatGPT in verschiedenen Bereichen der Bioinformatik und Biomedizinischen Informatik im Laufe des Jahres untersucht und dabei die derzeitigen Stärken und Grenzen dieses Chatbots in der Bioinformatik aufgezeigt sowie Einblicke in mögliche Entwicklungswege für die Zukunft gewonnen.
Abstract
In dieser Übersichtsarbeit werden die jüngsten Fortschritte, hauptsächlich innerhalb des Jahres 2023, bei der Anwendung von ChatGPT in einem breiten Spektrum von Themen der Bioinformatik und Biomedizinischen Informatik zusammengefasst, darunter Omics, Genetik, Biomedizinisches Textmining, Arzneimittelentdeckung, Biomedizinische Bildverarbeitung, Bioinformatik-Programmierung und Bioinformatik-Ausbildung.
Für den Bereich Omics wird gezeigt, wie ChatGPT bei der Annotation von Zelltypen in Einzelzell-RNA-Sequenzierungsdaten sowie bei der Identifizierung von offenen Leserahmen in DNA-Sequenzen eingesetzt werden kann. Im Bereich Genetik wird diskutiert, wie ChatGPT in der genetischen Beratung eingesetzt wird und welche Herausforderungen sich dabei ergeben.
Im Bereich des Biomedizinischen Textminings werden Evaluierungen der Leistungsfähigkeit von ChatGPT in verschiedenen Aufgaben wie Namensnennung, Beziehungsextraktion, Dokumentklassifizierung und Frage-Antwort-Systemen präsentiert. Darüber hinaus werden Ansätze zur Verbesserung der Leistung durch Prompt-Engineering und die Integration von Domänenwissen diskutiert.
Für den Bereich der Arzneimittelentdeckung werden Beispiele und Werkzeuge vorgestellt, die einen menschenzentrierten Ansatz für den zuverlässigen Einsatz von ChatGPT unterstützen. Außerdem werden Fortschritte bei der strategischen Prompt-Gestaltung unter Verwendung von In-Context-Learning sowie bei der aufgaben- und instruktionsbasierten Feinabstimmung von Grundmodellen beschrieben.
Im Bereich der Biomedizinischen Bildverarbeitung wird gezeigt, wie multimodale KI-Modelle wie GPT-4V bei Aufgaben wie der Beantwortung visueller Fragen zu biomedizinischen Bildern eingesetzt werden können, aber auch die Einschränkungen dieser Modelle diskutiert.
Für die Bioinformatik-Programmierung wird das Konzept des "Prompt Bioinformatics" eingeführt, bei dem Nutzer natürlichsprachliche Anweisungen verwenden, um Chatbots für zuverlässige und reproduzierbare bioinformatische Datenanalysen durch Codegenerierung zu nutzen. Hierbei werden Anwendungsbeispiele, Herausforderungen und Lösungsansätze präsentiert.
Abschließend wird die Verwendung von Chatbots in der Bioinformatik-Ausbildung diskutiert, wobei Potenziale, Risiken und Empfehlungen für den verantwortungsvollen Einsatz dieser Technologie aufgezeigt werden.
Stats
"In 2023 allein wurden bei der Suche mit dem Schlüsselwort "ChatGPT" mindestens 2.074 Manuskripte in PubMed indexiert."
"Eine Suche auf PubMed mit den Schlüsselwörtern "ChatGPT" und "Bioinformatik" ergab jedoch nur 30 Veröffentlichungen."
"Bei der Bewertung von ChatGPT-4 auf dem GeneTuring-Datensatz zeigten sich Herausforderungen bei Fragen zu SNPs und Ausrichtungen."
"Beim Testen von ChatGPT-3.5 und ChatGPT-4 auf dem DDI-Korpus erreichte ChatGPT eine F1-Punktzahl von 52%."
"In einer Studie, die ChatGPT-4 bei der Vorhersage und Erläuterung von Arzneimittel-Arzneimittel-Interaktionen bewertete, wurde eine Genauigkeit von 50-60% erreicht, was eine Verbesserung von 20-30% durch weitere Optimierung zeigte."
Quotes
"Die Freisetzung von ChatGPT an die Öffentlichkeit gegen Ende des Jahres 2022 markierte eine neue Ära in der KI."
"Überraschenderweise ergab eine Suche auf PubMed mit den Schlüsselwörtern "ChatGPT" und "Bioinformatik" nur 30 Veröffentlichungen."
"Evaluierungen von ChatGPT-4 auf dem GeneTuring-Datensatz zeigten Herausforderungen bei Fragen zu SNPs und Ausrichtungen."
"Beim Testen von ChatGPT-3.5 und ChatGPT-4 auf dem DDI-Korpus erreichte ChatGPT eine F1-Punktzahl von 52%."
"In einer Studie, die ChatGPT-4 bei der Vorhersage und Erläuterung von Arzneimittel-Arzneimittel-Interaktionen bewertete, wurde eine Genauigkeit von 50-60% erreicht, was eine Verbesserung von 20-30% durch weitere Optimierung zeigte."