Core Concepts
多様な系統の個人のデータを活用し、事前学習と相互作用モデリングを用いることで、疾病予測の精度を向上させることができる。
Abstract
本研究では、UK バイオバンクのデータを用いて、白人英国人以外の系統の個人の疾病予測精度を向上させる手法を検討した。
まず、データセットを以下のように分類した:
「All」: 全ての系統のデータを含む
「Mix」: 白人英国人のデータと特定の他の系統のデータを組み合わせたもの
「ancestry-only」: 特定の系統のデータのみ
次に、以下の3つのモデルを検討した:
L1正則化ロジスティック回帰 (baseline)
Glinternet: 相互作用項を含むモデル
Pretrained Lasso: 事前学習を行ったLassoモデル
その結果、以下のような知見が得られた:
Glinternet モデルは、特に黒人系統、南アジア系統、混合系統において、いくつかの疾患(関節炎、喘息、糖尿病、胆石症、膀胱炎、変形性関節症)の予測精度を有意に向上させた。
Pretrained Lasso モデルは、南アジア系統と混合系統の予測精度を向上させたが、黒人系統では有意な改善は見られなかった。
Pretrained Lasso モデルはより疎なモデルになるため、解釈が容易である一方で、予測精度も高い。
全体的に見ると、事前学習と相互作用モデリングは、一部の疾患において、多様な系統の個人の予測精度を向上させることができる。ただし、その効果は限定的であり、系統間の違いも大きい。
Stats
変形性関節症のGlinternet モデルにおいて、遺伝リスクスコアと第4主成分の交互作用項が最も大きな係数を持っていた。これは、南アジア系統内の集団間の違いが変形性関節症の発症に影響している可能性を示唆している。
関節炎のL1正則化ロジスティック回帰モデルでは94個の非ゼロ係数が得られたのに対し、Pretrained Lassoモデルでは4個の非ゼロ係数のみであった。このように、Pretrained Lassoモデルはより疎なモデルになる。
Quotes
"事前学習と相互作用モデリングは、一部の疾患において、多様な系統の個人の予測精度を向上させることができる。"
"Pretrained Lassoモデルはより疎なモデルになるため、解釈が容易である一方で、予測精度も高い。"