Core Concepts
オンコロジー診療記録の重要な情報を効率的に検索・抽出するための、大規模言語モデルを活用したOnco-Retrieverモデルを開発した。
Abstract
本研究では、オンコロジー診療記録の重要な情報を効率的に検索・抽出するためのOnco-Retrieverモデルを開発した。
まず、オンコロジー分野の13の重要概念を定義し、実際の電子カルテデータから関連するチャンクを抽出した。次に、GPT-3を使ってこれらのチャンクに概念ラベルを付与し、トレーニングデータセットを作成した。
これに基づいて、3つのOnco-Retrieverモデル(Small、Optimized、Large)を開発した。これらのモデルは、従来の埋め込みベースのリトリーバーや大規模言語モデルよりも優れた精度と再現率を示した。特に、500万パラメータのOptimizedモデルは、精度0.69、再現率0.69と高い性能を発揮しつつ、患者1人分の診療記録を318秒で処理できる高速性も備えていた。
また、モデルの性能評価では、概念ごとの精度と再現率を詳細に分析し、各モデルの特徴を明らかにした。さらに、処理時間の計測も行い、実用性の高さを示した。
本研究の成果は、オンコロジー診療記録の効率的な検索と分析に貢献するものと期待される。今後は、汎用的な電子カルテ検索モデルの開発にも応用できると考えられる。
Stats
本研究で使用したデータセットは290人の実際の電子カルテデータから構成されている。
トレーニングデータには240人分、テストデータには50人分が含まれている。
1人当たりの診療記録は平均200文書あった。
Quotes
"オンコロジー診療記録の重要な情報を効率的に検索・抽出するためのOnco-Retrieverモデルを開発した。"
"500万パラメータのOptimizedモデルは、精度0.69、再現率0.69と高い性能を発揮しつつ、患者1人分の診療記録を318秒で処理できる高速性も備えていた。"