Die Studie untersucht die chemischen Fähigkeiten von Großsprachmodellen (Large Language Models, LLMs) systematisch mithilfe des ChemBench-Benchmarks. Dieser Benchmark umfasst über 7.000 Fragen aus verschiedenen Teilgebieten der Chemie, die manuell oder semi-automatisch zusammengestellt wurden.
Die Ergebnisse zeigen, dass führende LLMs in manchen Bereichen die Leistung von menschlichen Chemie-Experten übertreffen. Allerdings haben die Modelle auch erhebliche Schwächen, insbesondere bei Fragen zur Chemiesicherheit. Viele Modelle liefern hier irreführende Vorhersagen und können ihre eigenen Grenzen nicht zuverlässig einschätzen.
Die Studie unterstreicht, dass LLMs zwar bemerkenswerte Fähigkeiten in der Chemie zeigen, aber weitere Forschung notwendig ist, um ihre Sicherheit und Nützlichkeit zu verbessern. Die Ergebnisse deuten auch darauf hin, dass Anpassungen in der Chemie-Ausbildung erforderlich sind und die Entwicklung von Evaluierungsrahmen für sichere und nützliche LLMs weiterhin wichtig ist.
翻译成其他语言
从原文生成
arxiv.org
更深入的查询