核心概念
医療記録データの特性を考慮し、ドメイン知識を一般言語モデルに効果的に転移することで、緊急/非緊急患者の分類精度を向上させる。
要約
本研究では、韓国の小児科救急部門(PED)の電子カルテデータを用いて、緊急/非緊急患者の自動分類タスクを取り扱っている。
- 韓国のような非英語圏の国では、医療記録データが多言語(韓国語と英語)で記述されるという特徴がある。
- 従来の医療ドメイン特化型言語モデルは、このような多言語・非構造化データに対して十分な性能を発揮できないことが明らかになった。
- そこで本研究では、知識蒸留(KD)を用いて、一般言語モデルにドメイン知識を効果的に転移する手法を提案した。
- 具体的には、医療ドメイン特化型モデルを教師モデル、一般言語モデルを学習者モデルと定義し、教師モデルの隠れ状態と注意機構を学習者モデルに転移することで、ドメイン知識の獲得を促進する。
- 提案手法は、韓国PED電子カルテデータの緊急/非緊急患者分類タスクにおいて、ベースラインモデルを大きく上回る性能を示した。
- さらに、提案手法は医療分野以外の様々な専門分野にも応用可能であり、ドメイン知識の効率的な活用に寄与することが期待される。
統計
韓国語単語数は全体の43%、英語単語数は23%、その他は33%
英語単語のうち20%が医療用語、韓国語単語のうち5%が医療用語
引用
"医療記録データの特性を考慮し、ドメイン知識を一般言語モデルに効果的に転移することで、緊急/非緊急患者の分類精度を向上させる。"
"提案手法は、韓国PED電子カルテデータの緊急/非緊急患者分類タスクにおいて、ベースラインモデルを大きく上回る性能を示した。"