本研究では、データ中心型AIアプローチの可能性を探るため、BRAF阻害剤のデータセットを用いて体系的な評価を行った。
まず、5つの従来の機械学習アルゴリズム(kNN、NBayes、GBDT、RF、SVM)と55種類の分子表現を組み合わせて1,375個の予測モデルを開発し、評価した。その結果、SVM+ECFP6+Extended fingerprints組み合わせが最高の99.05%の正確度を達成した。これは従来の深層学習ベースの仮想スクリーニングよりも優れた性能である。
次に、データ品質、データ量、データ構成がモデルの予測性能に与える影響を調べた。データ量が限られる場合、不活性化合物の数を増やしても活性化合物の予測精度は向上しないことが分かった。また、DUD-Eデコイを不活性化合物として使用すると、偽陽性率が高くなることが示された。
以上の結果から、データ中心型アプローチの重要性が示された。適切なデータ表現と高品質なデータセットを用いることで、従来の機械学習アルゴリズムでも優れた予測性能が得られることが明らかになった。今後は、データ中心型AIアプローチの確立に向けて、データの4つの柱(表現、品質、量、構成)の体系的な評価が重要であると考えられる。
他の言語に翻訳
原文コンテンツから
biorxiv.org
抽出されたキーインサイト
by Chong,A., Ph... 場所 www.biorxiv.org 03-31-2024
https://www.biorxiv.org/content/10.1101/2024.03.28.587184v2深掘り質問