Multimodale Lernmodelle ermöglichen es, Moleküle und textuelle Domänenkenntnisse gemeinsam zu modellieren, um die Leistung in verschiedenen molekularen Aufgaben zu verbessern.
MoleculeQA ist ein neuartiger Frage-Antwort-Datensatz, der 62.000 Frage-Antwort-Paare über 23.000 Moleküle umfasst. Jedes Paar besteht aus einer manuell erstellten Frage, einer richtigen Option und drei falschen Optionen, die konsistent mit einer molekularen Beschreibung aus einem autorisierten molekularen Korpus sind. MoleculeQA ist nicht nur der erste Benchmark zur Bewertung molekularer faktischer Verzerrungen, sondern auch der größte Frage-Antwort-Datensatz für die molekulare Forschung.