Der Artikel untersucht, wie sich die Verteilung der Kollektivvariablen in den Trainingsdaten auf die Genauigkeit von Maschine-Lernens-Potentialen (MLPs) bei der Vorhersage der freien Energiefläche (FES) von Molekülen auswirkt. Dafür wurden die Moleküle Butan und Alanin-Dipeptid (ADP) als Testfälle verwendet.
Für Butan wurden verschiedene Trainingsdatensätze mit unterschiedlichen Verteilungen der Dihedralwinkel generiert, um hypothetische Szenarien der Probennahme zu simulieren. Die Ergebnisse zeigen, dass die Genauigkeit der Butan-MLPs nicht signifikant von der Verteilung der Kollektivvariablen in den Trainingsdaten beeinflusst wird, solange die charakteristischen Regionen der FES abgedeckt sind. Wenn jedoch nicht alle charakteristischen Regionen der FES im Trainingsdatensatz enthalten sind, können die MLPs die Potenzialenergie zwar gut vorhersagen, haben aber Schwierigkeiten, die freie Energie dieser Konfigurationen korrekt zu rekonstruieren.
Für ADP zeigten die mit klassischen MD-Daten trainierten Modelle erhebliche Ungenauigkekeiten. Die mit ab initio-Daten trainierten Modelle konnten die Potenzialenergie zwar gut vorhersagen, dies übertrug sich jedoch nicht auf eine genaue Vorhersage der freien Energie. Die Ergebnisse unterstreichen die Schwierigkeiten, einen umfassenden Trainingsdatensatz zu erstellen, der für MLPs erforderlich ist, um die zugrunde liegende FES des Systems effektiv vorherzusagen. Außerdem wird die Bedeutung von Vorkenntnissen über die FES des Systems bei der Erstellung des Datensatzes deutlich, was Aufschluss über mögliche Einschränkungen von MLPs bei der Berechnung von Freienergien gibt.
To Another Language
from source content
arxiv.org
Deeper Inquiries