本研究は、大規模言語モデルの健康予測タスクへの適用可能性を包括的に評価している。
主な内容は以下の通り:
8つの最新の大規模言語モデル(Med-Alpaca、FLAN-T5、Palmyra-Med、Asclepius、ClinicalCamel、GPT-3.5、GPT-4)を用いて、6つのパブリックデータセットから抽出した13の健康予測タスク(メンタルヘルス、活動量、代謝、睡眠、心臓)を評価した。
ゼロショット、フューショット、fine-tuningなどの手法を用いて、モデルのパフォーマンスを比較した。その結果、GPT-3.5やGPT-4などの大規模モデルがフューショットで優れた性能を示した一方、fine-tuningしたHealth-Alpacaモデルが13タスクのうち5つで最高性能を達成した。
コンテキスト情報(ユーザプロファイル、健康知識、時間情報)を prompt に追加することで、最大23.8%の性能向上が得られ、特に健康知識の追加が重要であることが示された。
fine-tuningしたモデルの汎化性能を評価し、データセット間の相乗効果も観察された。また、15%程度のデータでも十分な性能が得られることが分かった。
以上より、大規模言語モデルは健康予測タスクに適用可能であり、適切なコンテキスト情報の活用と少量のデータでのfine-tuningが重要であることが示された。
To Another Language
from source content
arxiv.org
Дополнительные вопросы