Core Concepts
大規模言語モデルの読解能力と生物医学的知識を活用し、スケーラブルで証拠に基づいた方法で生物医学的関係を抽出する。
Abstract
本研究では、大規模言語モデル(LLM)を活用して、半構造化ウェブ記事から効率的に生物医学的関係を抽出する手法を提案した。
関係抽出タスクをLLMの二値分類問題として定式化し、外部コーパスとモデルの知識に基づいて判断を下し、その根拠を提示する。
ウェブページのメインタイトルを尾部エンティティとし、バイオメディカル用語辞書に基づいて潜在的な頭部エンティティを特定する。
長文のコンテンツは文章に分割し、埋め込みモデルを使って関連性の高い部分を検索・抽出する。
オープンソースのLLMを使って3つの生物医学的関係タイプについて248,659個の関係トリプレットを抽出した。
専門家による評価では、提案手法はGPT-4と同等のF1スコア(0.882)を達成した。
ケーススタディから、LLMの長所と課題も明らかになった。
Stats
抽出された関係トリプレットの総数は248,659個
Medscapeでは、徴候・症状・所見の関係が80,910個(73.9%)、診断検査の関係が61,339個(68.1%)、治療の関係が118,139個(58.1%)
MSD Manualでは、徴候・症状・所見の関係が9,354個(85.1%)、診断検査の関係が9,948個(66.7%)、治療の関係が19,130個(75.1%)
MedlinePlusでは、徴候・症状・所見の関係が12,787個(84.8%)、診断検査の関係が6,021個(68.6%)、治療の関係が7,252個(61.3%)
Quotes
"大規模言語モデルの読解能力と生物医学的知識を活用し、スケーラブルで証拠に基づいた方法で生物医学的関係を抽出する。"
"提案手法はGPT-4と同等のF1スコア(0.882)を達成した。"
"ケーススタディから、LLMの長所と課題も明らかになった。"