本研究では、医療分野におけるテキストマイニングタスクに対して、最新の大規模言語モデル(LLM)を活用する方法を調査しています。具体的には、医薬品とその関連属性(用量、投与経路、強度、副作用など)の抽出を行い、さらにそれらの抽出された医療用語をSNOMED-CTやBNFなどの標準的な臨床知識ベースにリンクする機能を開発しています。
さらに、個別のLLMモデルの性能を向上させるために、アンサンブル学習手法(STACK-ENSEMBLEとVOTING-ENSEMBLE)を探索しています。その結果、個別のファインチューニングモデル(BERT、RoBERTa、RoBERTa-L、BioBERT、BioClinicalBERT、BioMedRoBERTa、ClinicalBERT、PubMedBERT)よりも、アンサンブル学習モデルの方が一般的および特定のドメインにおいて優れた性能を発揮することが示されました。
最終的に、抽出された医療用語をSNOMED-CTコードおよびBNFコードにマッピングする実体リンク機能を構築しました。開発したツールキットとデスクトップアプリケーションは公開されています。
На другой язык
из исходного контента
arxiv.org
Дополнительные вопросы