核心概念
大規模言語モデルは、ソーシャルメディアデータを使用した精神健康タスクで優れた性能を示しており、特に重症度評価では、少量のサンプルを使用したファインチューニングによって大幅に精度が向上することが明らかになった。
摘要
本研究は、大規模言語モデル(LLM)の精神健康タスクに対する包括的な評価を行った。ゼロショット(ZS)とフューショット(FS)の両方の能力を、うつ病、自殺リスク、ストレスなどの精神疾患検出、重症度評価、精神医学知識評価の各タスクで探った。33種類のモデル(20億~405億パラメータ)を使用し、9種類の主要プロンプトテンプレートを活用した。
主な結果は以下の通り:
- GPT-4やLlama 3などのモデルは、バイナリ障害検出タスクで最大85%の精度を達成した。プロンプトエンジニアリングが重要な役割を果たし、適切なプロンプトを使うことで、特定のモデルの精度が大幅に向上した。
- 重症度評価タスクでは、FSの学習によって精度が大幅に向上し、コンテキストの例が複雑な評価に重要であることが示された。Phi-3-miniモデルでは、ZSからFSに移行する際に、バランス精度が6.80%以上改善し、MAEが1.3近く低下した。
- 精神医学知識評価タスクでは、新しいモデルが古いより大きなモデルを一般的に上回り、Llama 3.1 405bが91.2%の精度を達成した。
一方で、データセットや課題間のパフォーマンスの変動性、適切なプロンプトエンジニアリングの必要性、大規模モデルの高コスト、倫理的制限による正確な評価の困難さなどの課題も明らかになった。
統計資料
GPT-4は、バイナリ障害検出タスクで最大85%の精度を達成した。
Phi-3-miniモデルは、重症度評価タスクでZSからFSに移行する際に、バランス精度が6.80%以上改善し、MAEが1.3近く低下した。
Llama 3.1 405bは、精神医学知識評価タスクで91.2%の精度を達成した。
引述
"大規模言語モデルは、ソーシャルメディアデータを使用した精神健康タスクで優れた性能を示している。"
"重症度評価タスクでは、FSの学習によって精度が大幅に向上し、コンテキストの例が複雑な評価に重要であることが示された。"
"新しいモデルが古いより大きなモデルを一般的に上回り、Llama 3.1 405bが91.2%の精度を達成した。"