核心概念
ntsm は、アラインメントを必要とせず、超低カバレッジのデータでも、シーケンシング技術に依存せずにサンプルスワップを検出できる効率的なツールである。
摘要
ntsmは、サンプルスワップ検出のための新しいツールである。主な特徴は以下の通り:
- アラインメントを必要とせず、k-merカウンティングのみで処理を行うため、計算コストが大幅に削減される。
- 超低カバレッジのデータでも、サンプルスワップを検出できる。
- シーケンシング技術に依存せず、Illumina、PacBio、Nanoporeなどさまざまなデータタイプに対応する。
- サンプルの類似度を尤度比に基づいて評価し、サンプルスワップを検出する。
- 配列エラー率の推定や、PCAを用いた集団構造解析など、QCに役立つ情報も提供する。
- PCAに基づくスクリーニング手法を導入し、サンプル間比較の計算量を大幅に削減できる。
ntsm は、大規模な研究プロジェクトにおけるサンプルQCの上流工程で有用なツールとなることが期待される。
統計資料
配列エラー率は、アラインメントに基づくギャップ圧縮エラー率と良く一致する。
PCAに基づくスクリーニング手法により、サンプル間比較の計算量を大幅に削減できる。サンプルカバレッジが30x以上の場合、比較対象のサンプルが全体の5%未満に抑えられる。
Somalierと比較して、低カバレッジ(1x未満)のデータでもサンプルスワップを高感度かつ高特異度で検出できる。
引述
"ntsm は、アラインメントを必要とせず、超低カバレッジのデータでも、シーケンシング技術に依存せずにサンプルスワップを検出できる効率的なツールである。"
"ntsm は、大規模な研究プロジェクトにおけるサンプルQCの上流工程で有用なツールとなることが期待される。"