이 연구는 사용자가 생성한 약물 리뷰 데이터를 활용하여 기계 학습 기술을 통해 약물에 대한 사용자의 감정을 분석하고 분류하는 방법을 제안한다.
데이터 수집 단계에서는 웹 스크래핑을 통해 약물 리뷰 데이터를 수집하고, 이를 수동으로 긍정, 부정, 중립 등 3개의 클래스로 레이블링한다.
데이터 전처리 단계에서는 결측치 처리, 텍스트 정제 등의 작업을 수행한다. 이후 BERT, SciBERT, BioBERT, SBERT 등의 사전 학습된 언어 모델을 활용하여 리뷰 텍스트를 벡터 임베딩한다.
분류 모델 학습 단계에서는 결정 트리, 서포트 벡터 머신, 랜덤 포레스트, 로지스틱 회귀 등 다양한 기계 학습 알고리즘을 적용하여 성능을 비교한다. 그 결과 랜덤 포레스트 모델이 가장 우수한 성능을 보였다.
실험 결과, BERT 모델에 순환 신경망을 적용한 경우 정밀도 52%, 재현율 53%, F1-점수 50%의 성능을 보였다. 이를 통해 제안한 접근 방식이 사용자 생성 약물 리뷰의 감정 분석에 효과적임을 확인할 수 있다.
향후 연구 방향으로는 더 많은 데이터를 활용하여 고도화된 딥러닝 모델을 학습시켜 분류 정확도를 높이는 것을 고려할 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문