この論文は、ゲノムワイド関連解析(GWAS)において、高速かつ高精度なグループ化変数選択とFDR制御を実現する新しい手法であるInformed Elastic Net (IEN)を提案している。
GWASは、病気などの形質と関連する遺伝子多型を特定するために広く用いられている手法である。しかし、GWASでは、解析対象となるSNPsの数がサンプル数をはるかに上回るため、高次元データ解析特有の問題が生じる。その一つが、多重検定による偽陽性(false positive)の増加である。偽陽性を制御するために、False Discovery Rate (FDR)を制御する手法が開発されてきたが、従来の手法は計算コストが高く、大規模なGWASへの適用が困難であった。
近年、高次元データにおけるFDR制御を実現する手法として、T-Rexセレクターが提案された。T-Rexセレクターは、ダミー変数を用いたランダムな実験を繰り返し行うことで、FDRを制御しながら変数選択を行う。T-Rexセレクターを拡張したT-Rex+GVSセレクターは、Elastic Net (EN)をベースセレクターとして用いることで、グループ化変数選択を実現している。しかし、ENは計算コストが高いため、T-Rex+GVSセレクターの大規模GWASへの適用は依然として困難であった。
そこで、本論文では、ENの計算コストを大幅に削減する新しいベースセレクターとして、IENを提案する。IENは、変数間の相関情報を用いて変数をグループ化し、グループごとにペナルティをかけることで、グループ化変数選択を実現する。IENは、Lasso型の最適化問題として定式化できるため、高速なアルゴリズムで解くことができる。
シミュレーションと実際のGWASデータを用いた実験により、IENはENと比較して、計算コストを大幅に削減しながら、同等のTPRとより低いFDRを達成することが示された。
IENは、大規模GWASにおいて、高速かつ高精度なグループ化変数選択とFDR制御を実現する有望な手法である。
他の言語に翻訳
原文コンテンツから
arxiv.org
深掘り質問