核心概念
本稿では、解釈可能な機械学習モデルである再帰型特徴マシン(RFM)と、SMILES局所フラグメント化技術から得られたマルチスケールハイブリッドフィンガープリント(HF)を用いることで、従来手法やグラフニューラルネットワークよりも優れた予測精度と解釈可能性を備えた、分子特性予測のための強力かつ解釈可能なツールを提案する。
要約
論文要約
書誌情報
Shen, J., Zhang, H., Wang, Y., Wang, Y., Tao, S., Qiu, B., ... & Shyh-Chang, N. (2023). Interpretable QSPR Modeling using Recursive Feature Machines and Multi-scale Fingerprints. [論文投稿中]
研究目的
本研究は、解釈可能な機械学習モデルである再帰型特徴マシン(RFM)と、新規に開発したマルチスケールハイブリッドフィンガープリント(HF)を用いることで、分子特性、特に溶解度予測において、高精度かつ解釈可能な定量的構造活性相関(QSPR)モデルを構築することを目的とする。
方法
- 分子表現として、MACCSキー、Morganフィンガープリント、そして記述子とSMILESフラグメント化フィンガープリントを組み合わせたHFを用いた。
- RFMモデルを構築し、平均勾配外積(AGOP)を用いて特徴量の重要度分析を行った。
- 9種類の溶解度データセット(AqSolDB、Arash、ESOL、FreeSolv、Samuelの5つのサブセット)を用いて、RFMと他の機械学習モデル(線形回帰、勾配ブースティングツリー、XGBoost、ランダムフォレスト、ResNet、FT-Transformer)の性能を比較した。
- さらに、RFMの解釈可能性を検証するために、Permutation Importance(PI)およびSHapley Additive exPlanations(SHAP)を用いて、RFMの特徴量重要度分析結果との比較を行った。
- 最後に、異なるカーネル関数(ラプラスカーネル、マターンカーネル、ガウスカーネル、有理二次カーネル)を用いたRFMモデルの過剰適合挙動を分析した。
結果
- RFM-HFは、従来の機械学習モデルと比較して、9つのデータセットすべてにおいて優れた予測性能を示した。
- RFMの特徴量重要度分析は、PIおよびSHAPの結果と高い相関を示し、その信頼性の高さが示された。
- RFMは、局所的な解釈可能性と大域的な解釈可能性の両方を提供し、特定の分子構造が溶解度に与える影響を詳細に分析することができた。
- 異なるカーネル関数を用いたRFMの過剰適合分析の結果、マターンカーネルとラプラスカーネルが最も安定した性能を示すことが明らかになった。
結論
RFMは、分子特性予測、特に溶解度予測において、高精度かつ解釈可能なツールであることが示された。提案された特徴量重要度分析は、分子設計や創薬において重要な指針となりうる。
本研究の意義
本研究は、RFMとHFを用いることで、QSPRモデリングにおいて、予測精度と解釈可能性の両方を向上させることができることを示した。これは、創薬や材料科学などの分野において、新しい化合物の設計や物性予測を加速させるために非常に重要である。
限界点と今後の研究
本研究では、溶解度予測に焦点を当てていましたが、RFMは他の分子特性の予測にも適用できる可能性がある。また、HFは、より多くの記述子やフラグメント情報を組み込むことで、さらに改善できる可能性がある。
統計
AqSolDBデータセットには、9,982個の独自の化合物が含まれている。
Arashのデータセットは、8,438個の有機化合物とその溶解度データで構成されている。
ESOLデータセットには、1,128個の有機分子の実験溶解度データが含まれている。
FreeSolvデータセットは、642個の分子の水中での溶媒和自由エネルギーデータを提供している。
MACCSキーは167ビットのフィンガープリントである。
Morganフィンガープリントは、直径2で2048ビットのフィンガープリントである。
マルチスケールハイブリッドフィンガープリントは、記述子68ビットとフラグメントフィンガープリント243ビットで構成されている。
引用
"Interpretable machine learning is vital for scientific research, especially in biology and chemistry, where it facilitates advances in drug discovery and molecular design."
"This study pioneers the application of Recursive Feature Machines (RFM) in QSPR modeling, introducing a tailored feature importance analysis approach to enhance interpretability."
"Experimental results show that RFM-HF surpasses both traditional machine learning models and advanced graph neural networks, excelling in both predictive accuracy and interpretability."