Core Concepts
本研究では、グラフニューラルネットワーク(GNN)を用いた分子特性予測において、アーキテクチャ探索を活用して高精度な不確実性定量化を実現する手法を提案する。
Abstract
本研究では、分子特性予測のためのグラフニューラルネットワーク(GNN)モデルに対して、不確実性定量化(UQ)の手法を提案している。
まず、分子構造をグラフとして表現し、原子と結合の特徴を特徴量として用いる。次に、ニューラルアーキテクチャ探索(NAS)アルゴリズムを用いて、UQの性能が高いGNNモデルを発見する。具体的には、負対数尤度(NLL)を最小化するようにアーキテクチャを探索し、得られた高性能モデルをアンサンブル化する。
このアンサンブルモデルを用いることで、予測の不確実性を適切に定量化できる。さらに、アレアトリック(データ)不確実性とエピステミック(モデル)不確実性を分離して評価することができる。
提案手法のAutoGNNUQは、ベンチマークデータセットにおいて、予測精度とUQ性能の両面で優れた結果を示した。特に、NLLとMCAの指標で大幅な改善が見られた。また、t-SNEを用いた可視化により、分子特徴と不確実性の相関を分析し、データセットの改善につなげられる可能性を示した。
AutoGNNUQは、医薬品開発や材料科学など、不確実性定量化が重要な分野での適用が期待される。
Stats
分子の脂溶性(logD)の予測誤差は、AutoGNNUQが0.64±0.02、ベンチマークが0.73±0.11。
水溶性(log mol/L)の予測誤差は、AutoGNNUQが0.74±0.06、ベンチマークが0.58±0.03。
溶媒和自由エネルギー(kcal/mol)の予測誤差は、AutoGNNUQが1.32±0.29、ベンチマークが1.15±0.12。
原子化エネルギー(kcal/mol)の予測誤差は、AutoGNNUQが47.5±2.1、ベンチマークが77.9±2.1。