แนวคิดหลัก
大規模で多様なデータセットを用いた事前学習により、様々な化学領域における原子特性予測の精度と汎化性能を大幅に向上させることができる。
บทคัดย่อ
本研究では、Joint Multi-domain Pre-training (JMP)と呼ばれる新しい事前学習手法を提案している。JMPは、複数の化学領域のデータセットを同時に学習する多タスク学習フレームワークに基づいている。具体的には、小分子、大分子、材料といった異なる化学領域のデータセットを統合し、各データセットを独立のタスクとして扱うことで、一つのモデルを学習する。
JMPの主な特徴は以下の通りである:
データサイズの違いを考慮したサンプリング手法の導入
原子数の違いを考慮した損失関数の設計
多様な化学領域のデータを活用した事前学習
これらの工夫により、JMPは従来の手法と比べて大幅な性能向上を実現している。具体的には、小分子、大分子、材料といった幅広い化学領域のベンチマークタスクにおいて、平均で59%の性能向上を達成している。また、大規模モデルの学習にも効果的で、低データ環境でも優れた汎化性能を発揮している。
本研究の成果は、化学分野における機械学習モデルの性能向上と汎用性の向上に大きく貢献するものと期待される。今後は、より大規模なモデルの学習や、事前学習と微調整の最適化など、さらなる発展が期待される。
สถิติ
事前学習に使用したデータセットは合計約120Mサンプルで、OC20、OC22、ANI-1x、Transition-1xから構成される。
微調整に使用したデータセットは、QM9、rMD17、MatBench、QMOF、SPICE、MD22など、小分子、大分子、材料の各領域をカバーしている。
JMP-Lモデルは約235Mパラメータを持つ大規模モデルである。
คำพูด
"Foundation models have been transformational in machine learning fields such as natural language processing and computer vision. Similar success in atomic property prediction has been limited due to the challenges of training effective models across multiple chemical domains."
"JMP demonstrates an average improvement of 59% over training from scratch, and matches or sets state-of-the-art on 34 out of 40 tasks."
"Pre-training acts as a strong regularizer, allowing us to train a model with 235M parameters that sets new state-of-the-art performance on multiple low-data benchmarks."