Core Concepts
一般データリポジトリに蓄積された分子動力学シミュレーションデータを発掘し、その価値を明らかにする。
Abstract
本研究では、一般データリポジトリ(Zenodo、Figshare、OSF)に蓄積された分子動力学(MD)シミュレーションデータを発掘し、その特徴を分析しました。
まず、特定のファイル形式とキーワードを組み合わせた検索手法(Ex2戦略)を用いて、約25万件のファイルと2,000件のデータセットを発見しました。これらのデータは、一般データリポジトリに散在しており、索引化や管理が行われていないため「暗黒物質」と呼ばれています。
Gromacsソフトウェアで生成されたファイルに着目し、詳細な分析を行いました。
.xtcトラジェクトリファイルは28,559件(8.6TB)見つかり、分子システムの動態を理解する上で重要な情報を含んでいます。
.groファイルの解析から、リン脂質膜系や水和タンパク質系など、多様な分子システムがシミュレーションの対象となっていることが分かりました。
.mdpファイルの解析から、温度、熱浴、圧力浴の設定など、シミュレーションの詳細な条件を把握できました。
これらの分析結果から、一般データリポジトリに蓄積された膨大なMDデータには大きな価値があることが示されました。しかし、現状ではメタデータの不足により、これらのデータを効果的に活用するのが困難です。
今後は、MDデータの共有と記述の改善に向けたガイドラインを提案しました。また、MDverseデータエクスプローラというプロトタイプツールを開発し、このデータを簡単に探索できるようにしました。
MDコミュニティ全体で、MDデータの共有と活用を推進していくことが重要です。
Stats
分子動力学シミュレーションの総フレーム数は10,000フレーム以上が半数を占める
分子システムのサイズは3百万原子以上に及ぶ
温度設定は主に298K-310Kの範囲だが、100K-800Kまでの広範囲にわたる
Quotes
"多くのシミュレーションは単一の論文のために行われているが、実際にはそれ以上の価値を持っている。"
"データの保存コストは、シミュレーションを生成するために使用されるリソースに比べればきわめて安価である。"
"MDデータを実用的に利用可能にするためには、データの可視化と検索が重要である。"