核心概念
異なる化学領域での転移学習は、有機材料の効率的な仮想スクリーニングに適していることを示唆する。
要約
この研究では、深層学習モデルを特定の有機材料に限定されていないデータベース(ChEMBLやUSPTO)で事前トレーニングし、その後、有機材料の仮想スクリーニングにおける優れた予測性能を実証した。USPTO-SMILESデータベースから抽出された分子SMILESデータを使用して事前トレーニングされたモデルが、ほとんどの仮想スクリーニングタスクで最高のパフォーマンスを発揮した。これは、USPTOデータベースがより広範囲な有機部品を提供し、化学空間をより包括的にカバーしていることに起因する。この研究は、異なる化学領域間での転移学習が、有機材料の仮想スクリーニングにおけるデータ不足の課題に対処する可能性があることを強調しています。
統計
USPTO-SMILESデータセットは1,345,854個の分子から成り立っています。
CEPDB-10K、CEPDB-100K、CEPDB-1Mからそれぞれ104, 105, 106個の分子がランダムに選択されました。
MpDBには12,096個のポルフィリンまたはメタロポルフィリンが含まれています。
引用
"USPTO-SMILES事前トレーニドBERTモデルは、3つのタスクで0.94以上、他2つでも0.81以上というR2スコアを達成しました。"
"USPTO-SMILES事前トレーニドBERTモデルは、化学空間全体をより広く探索することが可能です。"
"本研究は異なる化学領域間で転移学習を適用する可能性を確認しました。"