Основні поняття
本研究提出了一種利用基於轉換器的模型和輔助特徵來檢測社交媒體帖子中抑鬱症的新方法。
Анотація
本研究提出了一種新的神經網絡架構,結合了基於轉換器的模型(DistilBERT)和輔助特徵(元數據和語言標記)來檢測社交媒體帖子中的抑鬱症。
具體來說:
- 從DistilBERT的最後四層中提取信息,應用學習到的權重並取平均,創建了一個豐富的文本表示。
- 將這種表示與元數據和語言標記相結合,增強了模型對每個帖子的理解能力。
- 採用dropout層防止過擬合,並使用多層感知機(MLP)進行最終分類。
- 採用基於Easy Data Augmentation (EDA)方法的數據增強技術,以提高模型性能,特別是通過增強欠代表性類別來平衡數據集。
實驗結果表明,該模型在加權精確度、召回率和F1分數方面分別達到84.26%、84.18%和84.15%。數據增強技術顯著提高了模型性能,將加權F1分數從72.59%提高到84.15%。
Статистика
抑鬱症是一種嚴重的精神健康問題,據估計全球有2.8億人患有抑鬱症,每年有超過70萬人自殺。
社交媒體平台已成為人們分享情緒和經歷的熱門渠道,研究人員認識到社交媒體數據可以揭示與精神健康相關的有價值的洞見和語言模式。
本研究使用的數據集包含4,353個Reddit帖子,標註有四個抑鬱症嚴重程度級別:最小、輕度、中度和重度。
Цитати
"本研究提出了一種新的神經網絡架構,結合了基於轉換器的模型(DistilBERT)和輔助特徵(元數據和語言標記)來檢測社交媒體帖子中的抑鬱症。"
"實驗結果表明,該模型在加權精確度、召回率和F1分數方面分別達到84.26%、84.18%和84.15%。數據增強技術顯著提高了模型性能,將加權F1分數從72.59%提高到84.15%。"