核心概念
本稿では、タンパク質、RNA、低分子などの生体分子構造を、原子レベルの解像度を維持したまま効率的にトークン化できる、Mambaベースの新しいトークン化モデル「Bio2Token」を提案する。
要約
Bio2Token: Mambaを用いた任意の生体分子構造の全原子トークン化
本稿は、生体分子構造を原子レベルの解像度で効率的に表現し、トークン化するための新しい手法「Bio2Token」を提案する研究論文である。
本研究は、タンパク質、RNA、低分子などの生体分子構造を、原子レベルの詳細を失うことなく、効率的に表現およびトークン化できる計算モデルを開発することを目的とする。
Bio2Tokenは、Mambaと呼ばれる選択的構造化状態空間モデルを基盤とした量子化オートエンコーダ(QAE)である。このモデルは、生体分子構造の3次元点群を入力として受け取り、それを低次元の潜在空間表現にエンコードし、その後、元の構造にデコードする。エンコードされた潜在空間表現は、離散的なトークンに量子化され、これにより、原子レベルの解像度を維持したまま、構造の効率的な表現が可能になる。
本研究では、Bio2Tokenを訓練するために、低分子構造のデータセットである∇2DFT、タンパク質構造のデータセットであるCATH 4.2、RNA構造のデータセットであるRNA3DBを用いた。さらに、Bio2Tokenの性能を評価するために、それぞれのデータセットに対して、ドメイン特異的なトークン化モデル(mol2token、protein2token、rna2token)も訓練した。