核心概念
本稿では、英国の長寿調査(ELSA)データセットを用い、1次元畳み込みニューラルネットワーク(1D-CNN)を用いて、社会人口統計学的因子、疾患、運動障害、日常生活動作(ADL)、手段的日常生活動作(IADL)、およびライフスタイル因子から、参加者の6回目の調査参加時の生存状態を予測する新しい手法を提案しています。
本稿は、イングランドの中高年および高齢者人口における死亡率予測に、1次元畳み込みニューラルネットワーク(1D-CNN)を用いるという新しいアプローチを検証した研究論文である。
研究の背景
従来、縦断的データ分析には、一般化線形モデル(GLM)や一般化線形混合モデル(GLMM)などの伝統的な統計的手法が用いられてきた。近年、機械学習(ML)モデルが台頭し、予測精度において従来の回帰モデルを凌駕する可能性が示唆されている。特に、ランダムフォレスト(RF)やXGBoostなどのアンサンブルツリーベースのモデルが、縦断的データ分析で注目されている。
本研究の目的
本研究では、ELSAデータセットを用いて、1D-CNNを用いた死亡率予測モデルの構築と評価を行う。ELSAは、50歳以上のイングランド人を対象とした、経済状況、社会状況、心理学、認知機能、健康状態、生物学的データ、遺伝子データなどを収集した大規模な縦断的調査である。
データと方法
本研究では、ELSAの第1コホートから、5回の調査すべてに参加した参加者のデータを用いた。特徴量としては、社会人口統計学的因子(年齢、性別、婚姻状況、就労状況など)、健康状態、ライフスタイルに関する質問項目を用いた。欠損値は、前後2回の調査における回答を用いて補完した。
1D-CNNは、画像などの均質なデータや、時系列データのように連続したデータ間に関係性がある場合に有効であることが知られている。本研究では、縦断的データにおいても、各調査時点のデータ間に時間的な関係性があることから、1D-CNNが有効であると考えた。
結果
データセットの不均衡に対処するため、ランダムオーバーサンプリング(ROS)、SMOTE、ADASYN、SMOTEEN、SMOTETomekなど、さまざまなオーバーサンプリング/アンダーサンプリング手法を用いて、人工的にデータを生成した。
隠れ層の活性化関数には、ReLU、SeLU、ELU、Swish、Leaky ReLUなどを試した結果、Swish関数が最も優れた性能を示した。また、オーバーサンプリング/アンダーサンプリング手法については、少数クラスをオーバーサンプリングする手法が、オーバーサンプリングとアンダーサンプリングを組み合わせた手法よりも優れた結果を示した。
結論
本研究では、ELSAデータセットを用いて、1D-CNNを用いた死亡率予測モデルを構築し、その有効性を示した。1D-CNNは、縦断的データ分析においても有効な手法となりうる可能性を示唆している。
今後の展望
本研究では、1D-CNNの基礎的なアーキテクチャを用いたが、今後は、より複雑なアーキテクチャやハイパーパラメータの調整を行うことで、予測精度を向上させることができる可能性がある。また、他の縦断的データセットを用いて、本手法の汎用性を検証することも重要である。
統計
データセットは、5回の調査すべてに参加し、5回目と6回目の調査の間に死亡した人のみが対象で、全体の1%に過ぎない。