Core Concepts
物理学に基づいた測地線補間を用いて合成遷移状態データを生成し、これを利用することで、限られた遷移状態データでも効率的にタンパク質折りたたみ過程の集団変数を学習できることを示した。
Abstract
本研究では、タンパク質折りたたみ過程の効率的な解析を目的として、物理学に基づいた測地線補間を用いた合成データ拡張手法を提案した。
まず、既知の折りたたみ状態と非折りたたみ状態の構造データから、測地線補間を用いて遷移状態に相当する中間構造を生成した。この合成遷移状態データは、実際の分子動力学シミュレーションから得られた遷移状態データと非常によく一致することが示された。
次に、この合成遷移状態データを利用して集団変数(CV)モデルを学習した。従来の判別分析ベースのCV学習手法に加えて、補間パラメータtを回帰ターゲットとする新しい手法を提案した。
評価実験の結果、提案手法は限られた実験データでも高性能なCVを学習できることが示された。特に、回帰ベースのCV学習手法は、判別分析ベースの手法に比べて、遷移状態データが少ない場合でも優れた性能を発揮した。これは、補間パラメータtが反応の進行度を表す有用な情報を提供するためと考えられる。
本手法は、タンパク質折りたたみ過程のみならず、様々な希少事象の解析に応用可能であり、効率的な サンプリングと解析に貢献すると期待される。
Stats
折りたたみ自由エネルギー差(∆F)は-3.56 kJ/molであった。
遷移状態付近のポテンシャル平均力(PMF)の平均絶対誤差(MAE)は2.07 kJ/molであった。