Die Studie untersucht die chemischen Fähigkeiten von Großsprachmodellen (Large Language Models, LLMs) systematisch mithilfe des ChemBench-Benchmarks. Dieser Benchmark umfasst über 7.000 Fragen aus verschiedenen Teilgebieten der Chemie, die manuell oder semi-automatisch zusammengestellt wurden.
Die Ergebnisse zeigen, dass führende LLMs in manchen Bereichen die Leistung von menschlichen Chemie-Experten übertreffen. Allerdings haben die Modelle auch erhebliche Schwächen, insbesondere bei Fragen zur Chemiesicherheit. Viele Modelle liefern hier irreführende Vorhersagen und können ihre eigenen Grenzen nicht zuverlässig einschätzen.
Die Studie unterstreicht, dass LLMs zwar bemerkenswerte Fähigkeiten in der Chemie zeigen, aber weitere Forschung notwendig ist, um ihre Sicherheit und Nützlichkeit zu verbessern. Die Ergebnisse deuten auch darauf hin, dass Anpassungen in der Chemie-Ausbildung erforderlich sind und die Entwicklung von Evaluierungsrahmen für sichere und nützliche LLMs weiterhin wichtig ist.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Adrian Mirza... lúc arxiv.org 04-03-2024
https://arxiv.org/pdf/2404.01475.pdfYêu cầu sâu hơn