核心概念
DNAシーケンスの類似性を分析するための新しいアラインメントフリーアルゴリズムを提案する。この手法は、DNAシーケンスを長さが半分以下の圧縮された表現ベクトルにマッピングし、ユークリッド距離を用いて比較する。
要約
本論文では、DNAシーケンスの類似性を分析するための新しいアラインメントフリーアルゴリズムを提案している。このアルゴリズムでは、DNAシーケンスを長さが半分以下の圧縮された表現ベクトルにマッピングする。
具体的には、以下の手順で行う:
DNAシーケンスの各塩基に対して、4つの素数を割り当てる。
シーケンス内の任意の位置を中心とする半径lの近傍を定義する。
各近傍内の塩基の出現頻度を表す整数を計算する。この整数は、割り当てた素数の積として表される。
全ての近傍の整数を足し合わせて、DNAシーケンスを代表するスカラー値を得る。
24個のスカラー値からなる代表ベクトルを構築し、ユークリッド距離を用いてDNAシーケンス間の類似性を比較する。
提案手法は線形時間計算量を持ち、メモリ消費も小さい。また、魚類のミトコンドリアDNAデータセットを用いた実験では、ベンチマークとの比較で良好な結果が得られた。さらに、シミュレーションデータでの評価でも、他の既存手法に比べて高速かつメモリ効率的であることが示された。
統計
DNAシーケンスの長さが異なる場合でも、提案手法は正常に動作する。例えば、Zea maysのクロモソームには3,070,417,717塩基、Oryza sativaのクロモソームには432,709,923塩基が含まれるが、提案手法は33.68分で実行でき、最大20.24GBのメモリを消費した。
シミュレーションデータを用いた実験では、提案手法は他の手法に比べて高速かつメモリ効率的であることが示された。
引用
"DNAシーケンスの類似性を分析するための新しいアラインメントフリーアルゴリズムを提案する。この手法は、DNAシーケンスを長さが半分以下の圧縮された表現ベクトルにマッピングし、ユークリッド距離を用いて比較する。"
"提案手法は線形時間計算量を持ち、メモリ消費も小さい。"