핵심 개념
大規模言語モデルを用いて、患者の診療記録から臨床試験の参加適格性を自動的に評価することができる。
초록
本論文は、大規模言語モデル(LLM)を用いて臨床試験の参加適格患者を自動的に特定する手法を提案している。
まず、LLMを用いて患者の診療記録から参加適格性を判断する「ゼロショット」アプローチを検討した。GPT-4を用いたシステムは、既存の最高性能モデルを6ポイントのマクロF1スコアと2ポイントのマイクロF1スコアで上回った。
次に、プロンプトの設計と2段階の検索パイプラインを工夫することで、コストと効率を大幅に改善した。プロンプトの最適化により、GPT-4を用いた場合、1人の患者の評価コストを約1.55ドルまで削減できた。一方、検索パイプラインにより、トークン数を3分の1まで削減しつつ高い性能を維持できた。
最後に、LLMが生成した根拠説明を医師が評価したところ、正しい判断に対しては97%が適切な説明であり、誤った判断に対しても75%が適切だと評価された。これにより、LLMベースのシステムが人間の監視の下で運用可能であることが示された。
통계
臨床試験の参加者募集に失敗する割合は3分の1に上る。
参加者募集には平均で試験予算の32%が費やされる。
94%の患者は医師から臨床試験の情報を得られていない。
1人の患者の適格性評価には最大1時間かかる。
인용구
"Matching patients to clinical trials is a key unsolved challenge in bringing new drugs to market."
"One third of clinical trials fail because they cannot enroll enough patients, and recruitment costs an average of 32% of a trial's budget."
"94% of patients are never informed by their doctors about trials for which they might qualify."