Core Concepts
사회 미디어 데이터의 시간적 및 감정적 특성을 활용하여 병적 도박 위험을 효과적으로 예측할 수 있다.
Abstract
이 연구는 사회 미디어 데이터, 특히 Reddit 사용자의 게시물을 활용하여 병적 도박 장애를 분류하는 문제를 다룹니다.
데이터 전처리 단계에서는 게시물의 시간적 불규칙성을 해결하기 위해 시퀀스 패딩을 사용하고, 데이터 불균형 문제를 해결하기 위해 무작위 다운샘플링을 적용했습니다.
두 가지 기준 모델(텍스트 기반 BERT 분류기와 순차적 GRU 모델)을 사용하여 초기 평가를 수행했습니다. 실험 결과 순차적 모델이 텍스트 연결 모델보다 우수한 성능을 보였습니다.
제안된 모델은 시간 감쇠 레이어와 감정 분류 레이어(EmoBERTa)를 포함하여 성능을 크게 향상시켰습니다. 주목 메커니즘을 추가했지만 성능 향상은 크지 않았지만, 모델의 해석 가능성을 높였습니다.
제안된 모델은 기존 벤치마크를 능가하는 높은 F1 점수를 달성했습니다. 이는 시간적 및 감정적 특성을 활용하여 병적 도박 위험을 효과적으로 예측할 수 있음을 보여줍니다.
향후 연구에서는 조기 위험 예측 시스템 개발, 다른 정신 건강 문제에 대한 모델 적용, 설명 가능한 AI 기법 개선 등을 다룰 계획입니다.
Stats
사용자당 평균 게시물 수는 520551개입니다.
긍정 레이블(병적 도박)은 245개, 부정 레이블은 4139개로 심각한 불균형이 존재합니다.
Quotes
"사회 미디어 플랫폼의 급격한 성장으로 사람들의 의사소통, 상호작용, 정보 공유 방식이 변화했습니다. 이는 정신 건강에 대한 다양한 통찰을 제공할 수 있는 풍부한 데이터 원천이 되었습니다."
"병적 도박은 지속적이고 반복적인 도박 행동으로 인해 심각한 손상이나 고통을 초래하는 장애입니다. 사회 미디어 데이터를 분석하고 분류함으로써 이 장애의 유병률과 조기 감지에 대한 귀중한 정보를 얻을 수 있습니다."