本研究では、オンコロジー診療記録の重要な情報を効率的に検索・抽出するためのOnco-Retrieverモデルを開発した。
まず、オンコロジー分野の13の重要概念を定義し、実際の電子カルテデータから関連するチャンクを抽出した。次に、GPT-3を使ってこれらのチャンクに概念ラベルを付与し、トレーニングデータセットを作成した。
これに基づいて、3つのOnco-Retrieverモデル(Small、Optimized、Large)を開発した。これらのモデルは、従来の埋め込みベースのリトリーバーや大規模言語モデルよりも優れた精度と再現率を示した。特に、500万パラメータのOptimizedモデルは、精度0.69、再現率0.69と高い性能を発揮しつつ、患者1人分の診療記録を318秒で処理できる高速性も備えていた。
また、モデルの性能評価では、概念ごとの精度と再現率を詳細に分析し、各モデルの特徴を明らかにした。さらに、処理時間の計測も行い、実用性の高さを示した。
本研究の成果は、オンコロジー診療記録の効率的な検索と分析に貢献するものと期待される。今後は、汎用的な電子カルテ検索モデルの開発にも応用できると考えられる。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Shashi Kant ... alle arxiv.org 04-11-2024
https://arxiv.org/pdf/2404.06680.pdfDomande più approfondite