In dieser Arbeit stellen wir einen innovativen Ansatz zur Vorhersage von HSQC-Spektren vor, der die Herausforderungen im Zusammenhang mit hohem Rechenaufwand, begrenzter Datenverfügbarkeit und arbeitsintensiver Annotation adressiert. Unser Framework kombiniert ein Graph Neural Network (GNN) und einen Lösungsmittelencoder, um diese Herausforderungen effektiv anzugehen.
Das GNN ermöglicht die Generierung von Atomeinbettungen, die die lokale und globale chemische Umgebung jedes Atoms erfassen. Diese Atomeinbettungen erfassen komplexe chemische Eigenschaften und Wechselwirkungen, die die chemischen Verschiebungen stark beeinflussen. Nach dem GNN-Schritt wird der Einfluss des Lösungsmittels durch Verkettung von Lösungsmitteleinbettungen, die vom Lösungsmittelencoder abgeleitet werden, integriert. Anschließend werden Mehrschicht-Perzeptron-Schichten (MLP) verwendet, um die C-H-Verschiebungen basierend auf diesen verfeinerten Atomeinbettungen vorherzusagen. Dieser Ansatz erfasst die Lösungsmitteleffekte effektiv und ermöglicht genaue Vorhersagen der chemischen Verschiebungen.
Darüber hinaus wenden wir eine ausgeklügelte Trainingsstrategie an, um den Mangel an Annotationen im HSQC-Datensatz zu adressieren. Zunächst trainieren wir das Modell auf annotierten 1D-NMR-Datensätzen mit einem Multi-Tasking-Trainingsansatz. Anschließend verfeinern und annotieren wir den HSQC-Datensatz mit Hilfe von Selbsttrainingsmethoden, wodurch die Leistung des Modells verbessert und seine Anwendbarkeit auf die Vorhersage von HSQC-Spektren erweitert wird.
Unsere Ergebnisse zeigen, dass unser Modell nicht nur in der Lage ist, HSQC-Spektren für mittelgroße und große Moleküle sowie Saccharide genau vorherzusagen, sondern auch die Peaks in experimentellen HSQC-Spektren präzise zuzuordnen. Diese Dual-Kapazität stellt einen bedeutenden Fortschritt in diesem Bereich dar und bietet vielfältige Anwendungsmöglichkeiten von der Materialwissenschaft bis hin zur Arzneimittelforschung.
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы