Conceitos essenciais
領域適応大規模言語モデルシステム(RadLing-System)は、汎用大規模言語モデルシステム(GPT-4-System)よりも、胸部放射線レポートから関連する特徴を抽出し、共通データ要素(CDE)に標準化する性能が優れている。
Resumo
本研究は、胸部X線レポートから関連する特徴を抽出し、共通データ要素(CDE)に標準化するタスクにおいて、領域適応大規模言語モデルシステム(RadLing-System)と汎用大規模言語モデルシステム(GPT-4-System)の性能を比較したものである。
- 3人の放射線科医が1,399件の胸部X線レポートを注釈し、44の事前選定された関連CDEを対象とした。
- RadLing-Systemは、レポートの文から順次CDEの値を抽出・標準化するアプローチを取った。一方、GPT-4-Systemは、レポート、特徴、値セット、動的フューショットを使ってCDEの値を抽出・マッピングするアプローチを取った。
- 抽出フェーズでのF1スコアは、RadLing-Systemが97%、GPT-4-Systemが78%であり、標準化フェーズでのF1スコアは、RadLing-Systemが98%、GPT-4-Systemが94%であった(p<0.001)。
- RadLing-Systemは、「不在」(99% vs 64%)と「未指定」(99% vs 89%)の区別において、GPT-4-Systemよりも優れた性能を示した。
- RadLing-Systemの軽量なマッパーにより、ローカルでの展開や実行コストの削減が可能となる。
Estatísticas
抽出フェーズのF1スコアは、RadLing-Systemが97%(21,296/21,956)、GPT-4-Systemが78%(17,125/21,956)であった。
標準化フェーズのF1スコアは、RadLing-Systemが98%(21,296/21,956)、GPT-4-Systemが94%(20,638/21,956)であった。
RadLing-Systemは、「不在」(99%(2,993/3,024) vs 64%(1,935/3,024))と「未指定」(99%(18,120/18,304) vs 89%(16,290/18,304))の区別において優れた性能を示した。
Citações
「領域適応大規模言語モデルシステム(RadLing-System)は、汎用大規模言語モデルシステム(GPT-4-System)よりも、胸部放射線レポートから関連する特徴を抽出し、共通データ要素(CDE)に標準化する性能が優れている。」
「RadLing-Systemの軽量なマッパーにより、ローカルでの展開や実行コストの削減が可能となる。」