本研究では、無作為化比較試験(RCT)の報告書から数値結果を自動的に抽出するために、大規模言語モデル(LLM)の性能を評価しました。
まず、699件のRCT報告書の抽象と結果セクションを注釈付けしたデータセットを作成しました。このデータセットには、介入、比較対照、アウトカム(ICO)ごとの数値結果が含まれています。
次に、7つのLLMを使って、ICOごとの数値結果を自動抽出する性能を評価しました。バイナリアウトカムの抽出では、特に大規模なLLMであるGPT-4が良好な成績を収めました。一方、複雑な連続アウトカムの抽出では、LLMの性能が低下しました。
この研究から、LLMを用いれば、RCTの数値結果を自動的に抽出し、メタ分析を実行できる可能性が示されました。ただし、現状のLLMにはまだ限界があり、特に複雑なアウトカムの抽出では改善の余地があることが明らかになりました。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania