Core Concepts
医療用語を一般の理解しやすい言葉に自動的に変換することで、患者教育を改善する。
Abstract
本研究では、医療用語を一般の理解しやすい言葉に自動的に変換する新しいタスクを提案しています。まず、50,000以上の医療用語とその一般向け定義からなる大規模なREADMEデータセットを作成しました。次に、人間とAIが協力して高品質なデータを生成・選択するデータ中心のパイプラインを開発しました。このパイプラインを使って、オープンソースの小規模言語モデルを高品質なデータで微調整すると、大規模な閉鎖型言語モデルであるChatGPTと同等以上の性能を発揮できることを示しました。この研究は、患者教育の知識ギャップを埋めるための重要な一歩となります。
Stats
医療用語の一般向け定義を生成するタスクでは、オープンソースの小規模言語モデルであるLLAMA2が、大規模な閉鎖型言語モデルであるGPT-3.5-turboと同等以上の性能を発揮しました。
データ選択手法の中では、SYNTAXとMODELが、より高品質な合成データを選択できることが示されました。
Quotes
"医療用語を一般の理解しやすい言葉に自動的に変換することで、患者教育を改善する。"
"オープンソースの小規模言語モデルを高品質なデータで微調整すると、大規模な閉鎖型言語モデルと同等以上の性能を発揮できる。"