Core Concepts
大規模言語モデルは、思春期のオンラインフォーラムから精神的健康要因を抽出する際に、専門家と同等の性能を発揮する。
Abstract
本研究では、思春期の精神的健康に関する新しいデータセットを作成し、GPT3.5とGPT4の2つの大規模言語モデルの性能を専門家の注釈と比較しました。
データセットには、12-19歳の思春期の Reddit投稿が含まれ、精神科医によって以下のカテゴリーにアノテーションされています:
TRAUMA (トラウマ)
PRECARITY (不安定性)
CONDITION (精神疾患)
SYMPTOMS (症状)
SUICIDALITY (自殺念慮)
TREATMENT (治療)
分析の結果、GPT4は人間の注釈者間一致率と同等の性能を示しました。一方で、GPT3.5はやや劣る結果となりました。
また、合成データを用いた場合、両モデルともに実データよりも高い性能を発揮しました。これは、合成データの方が単純で多様性が低いためと考えられます。
ただし、両モデルともに否定表現の扱いや事実性の判断に課題があることが分かりました。今後の課題として、これらの問題点を改善し、医療分野での実用化を目指す必要があります。
Stats
私には素晴らしい人々がいる周りにいる[PRECARITY:NEGATIVE(parental death)]
インターネットは私の唯一の対処方法[TRAUMA:NEGATIVE(unspecified)]
彼女の家庭環境は正直言って恐ろしい[TRAUMA:POSITIVE(emotional abuse)]
自閉症の人は時々気分の爆発やメルトダウンを起こすが、私にはそういった問題はほとんどない[CONDITION:NEGATIVE(autism)]
双極性障害だと思っていたが、常に完全に落ち込んでいたわけではないので、本気で受け止めていなかった[CONDITION:NEGATIVE(bipolar disorder)]
Quotes
"思春期の精神的健康は過去数年で着実に悪化している"
"大規模言語モデルは、コストと時間を節約しつつ、モニタリングや介入を拡大する可能性を秘めている"
"学校いじめや摂食障害など、特に思春期に顕著な問題について、これまでの研究では検討されていない"