核心概念
本稿では、ラベル付けされた心臓ペースメーカーの動作トレースから報酬マシンを学習し、強化学習エージェントをトレーニングしてペースメーカーを合成する新しい手法を提案する。
要約
強化学習を用いた人工ペースメーカー設計:デモンストレーションからの学習
本稿では、ラベル付けされた心臓ペースメーカーの動作トレースから報酬マシンを学習し、強化学習エージェントをトレーニングしてペースメーカーを合成する新しい手法を提案する。従来の人工ペースメーカー設計は、エンジニアが臨床ニーズを満たすデバイスを手作業で作成するという、時間と費用がかかり、エラーが発生しやすいプロセスであった。近年、強化学習(RL)は、その創造的な設計空間探索、適応性、統計的検証の能力により、人工ペースメーカーの設計に有望なアルゴリズムとして提案されている。しかし、RLベースの設計プロセスにおける最大の課題は、学習目標をスカラー報酬として表現する報酬関数を設計することである。
本稿では、この課題に対処するために、機械学習と形式手法の進歩を活用し、専門家のデモンストレーションと仕様抽出技術を組み合わせることで、RLベースのペースメーカー設計のための効率的かつ信頼性の高いフレームワークを作成することを目指している。具体的には、深層学習を用いて、ラベル付けされたペースメーカーの実行トレースから報酬マシンを学習する手法を提案する。この報酬マシンは、RLエージェントに報酬を提供し、ペースメーカーの動作を学習させるために使用される。
データセット
深層ニューラルネットワークをトレーニングするために、ペースメーカーオートマトンと心臓モデルを用いてデータセットを構築した。心臓モデルは、健康な機能またはいくつかの一般的な心臓の不整脈(完全房室ブロックを伴う病的洞不全症候群、洞停止、心室性期外収縮(PVC)、Mobitz II(3:2心ブロック)、確率的)を示すように作成された。各不整脈タイプについて、1,000個の負のサンプル(失敗した実行)と1,000個の正のサンプル(成功した実行)をシミュレートした。
報酬マシンの学習
報酬マシンは、LSTMとTransformerネットワークという2つの異なる深層学習アーキテクチャを用いて実装された。結果は、LSTMがTransformerモデルよりも大幅に優れていることを示した。また、報酬マシンへのコンテキストサイズ(深層学習モデルに与えられるアクションの数)の影響は、LSTMではほとんど見られなかったが、Transformerでは長いシーケンスは短いシーケンスよりもパフォーマンスが低いことが観察された。
ペースメーカーの学習
報酬マシンを用いて、確率的方策勾配アルゴリズムを用いてペースメーカーの機能を学習させた。トレーニングは、LSTMとTransformerの2種類の報酬マシンを用いて、それぞれ4回ずつ、合計8回行われた。検証は、トレーニングされたエージェントを各疾患状態の心臓で予測モードで使用することによって行われた。その結果、350,000ステップを超えるシミュレーション(約2.75時間のリアルタイム動作に相当)において、誤ったペースまたは省略されたペースは観察されなかった。