Core Concepts
本研究は、分子表現の粒度を調整可能な新しい大規模な事前学習戦略「AdaMR」を提案する。AdaMRは、分子カノニカライゼーション事前学習タスクを通じて、SMILES表現の内在的な相関特徴を深く理解し、多様なタスクでの優れた性能を実現する。
Abstract
本研究は、分子表現の粒度を調整可能な新しい大規模な事前学習戦略「AdaMR」を提案している。AdaMRは以下の特徴を持つ:
分子表現の粒度を原子レベルとサブ構造レベルの2つのモードで切り替えられる。事前学習時にはサブ構造レベルの表現に20%の確率で原子レベルの表現をミックスすることで、両方のレベルの情報を学習する。
分子カノニカライゼーションと呼ばれる事前学習タスクを導入する。この事前学習タスクでは、一般的なSMILES表現から正準的なSMILES表現を生成することで、SMILES表現の内在的な相関特徴を深く理解する。
分子特性予測タスクと分子生成タスクの両方で、事前学習モデルの微調整を行う。分子特性予測タスクではサブ構造レベルの表現を、分子生成タスクでは原子レベルの表現を使用する。
実験の結果、AdaMRは分子特性予測タスクと分子生成タスクの両方で、既存の最先端手法を上回る性能を示した。特に、分子特性予測タスクでは5つのうち3つのタスクで最高性能を達成し、分子生成タスクでも高い有効性、独自性、新規性を示した。このように、AdaMRは分子表現の粒度の適応性と分子カノニカライゼーション事前学習の効果により、幅広い分子関連タスクで優れた性能を発揮することが示された。
Stats
分子特性予測タスクにおける最高ROC-AUC値:
BBBP: 0.917
BACE: 0.894
ClinTox: 0.969
分子特性予測タスクにおける最低RMSE値:
ESOL: 0.525
FreeSolv: 0.933
Lipophilicity: 0.593
Quotes
「AdaMRは、分子表現の粒度を調整可能な新しい大規模な事前学習戦略である。」
「AdaMRは、分子カノニカライゼーション事前学習タスクを通じて、SMILES表現の内在的な相関特徴を深く理解し、多様なタスクでの優れた性能を実現する。」