核心概念
ChemDFM-Xは、化学データの多様なモダリティを理解し、様々な化学タスクを解決できる強力な化学分野の一般知能システムである。
摘要
本研究では、化学分野における大規模マルチモーダルモデルChemDFM-Xを提案した。ChemDFM-Xは、分子グラフ、分子コンフォメーション、画像、スペクトルなど、化学データの多様なモダリティを理解し、分子認識、物性予測、反応予測、逆合成など、幅広い化学タスクを解決することができる。
具体的には以下の取り組みを行った:
- 分子グラフ、分子コンフォメーション、画像、MS2スペクトル、IRスペクトルの5つのモダリティを導入し、それぞれに適したエンコーダを組み込んだ。
- 各モダリティのデータを大量に生成し、7.6Mの教示ファインチューニングデータセットを構築した。
- 構造モダリティ、画像モダリティ、スペクトルモダリティそれぞれについて、様々な化学タスクでの性能を評価した。
- 評価の結果、ChemDFM-Xは化学データの多様なモダリティを理解し、幅広い化学タスクを高い精度で解決できることが示された。これは化学分野における一般知能システムの重要なマイルストーンである。
统计
分子1つあたりの重原子数の最大値は574、最小値は1、平均値は35.0、中央値は29。
分子物性予測タスクでは、AUC-ROCの平均値が77.8%。
反応予測タスクの正解率は48%、妥当性は99%。
逆合成タスクの正解率は18%、妥当性は98%。
引用
"ChemDFM-Xは、化学データの多様なモダリティを理解し、様々な化学タスクを高い精度で解決できる強力な一般知能システムである。"
"ChemDFM-Xの開発は、化学分野における一般知能システムの実現に向けた重要なマイルストーンである。"