核心概念
DNA配列ライブラリ(DEL)スクリーニングにおける雑音を低減するために、多様な化合物表現を活用したマルチモーダルプリトレーニングと、原子、サブモレキュール、分子レベルの情報を統合するDELフュージョンを提案する。
摘要
DNA配列ライブラリ(DEL)スクリーニングは医薬品開発において効率的な手法であるが、複雑な生物学的システムによる非特異的な相互作用から生じる雑音が大きな課題となっている。従来の数学的分析手法や単純なニューラルネットワークでは、この雑音に十分に対処できないことが明らかになっている。
本研究では、以下の2つの革新的なアプローチを提案している:
- 多様な化合物表現(化合物グラフ、ECFP、テキスト記述)を用いたマルチモーダルプリトレーニング
- 化合物グラフ、ECFP、テキスト記述の間の対比学習を行うことで、化合物エンコーダーの特徴抽出能力を向上させる
- 限られた DEL 化合物の多様性を補うため、大規模な化学データベースを活用したプリトレーニングを行う
- DELフュージョンネットワーク
- 原子レベル、サブモレキュールレベル、分子レベルの化合物情報を統合的に捉える
- 注意機構を用いて各スケールの情報を動的に融合し、より包括的な化合物表現を得る
提案手法(MPDF)は、3つのDELデータセット(A、OA、P)で評価され、従来手法と比較して優れた性能を示した。特に、ノイズが高く不均衡なOAデータセットにおいて顕著な改善が見られた。これは、MPDFが多様な化合物情報を効果的に活用し、複雑なノイズ特性に適応できることを示している。
統計資料
化合物の最大可能性エンリッチメントは、ポアソン分布に基づく統計的分析から導出される。
化合物の活性予測は、化合物グラフ、ECFP、テキスト記述の間の対比学習を通じて行われる。
引述
"DELスクリーニングは医薬品開発において効率的な手法であるが、複雑な生物学的システムによる非特異的な相互作用から生じる雑音が大きな課題となっている。"
"従来の数学的分析手法や単純なニューラルネットワークでは、この雑音に十分に対処できないことが明らかになっている。"
"本研究では、多様な化合物表現を用いたマルチモーダルプリトレーニングとDELフュージョンネットワークを提案し、ノイズの高い DEL データセットにおいて優れた性能を示した。"