Belangrijkste concepten
소셜미디어 데이터에서 자연어 처리 기술을 활용하여 COVID-19 관련 증상 사전을 자동으로 구축하고, 이를 통해 대규모 소셜미디어 데이터에서 효과적으로 증상 정보를 추출할 수 있다.
Samenvatting
이 연구는 COVID-19 관련 트위터 데이터를 활용하여 증상 사전을 자동으로 구축하는 프레임워크를 제안한다. 주요 내용은 다음과 같다:
- 트위터 데이터에서 증상 엔티티를 추출하기 위해 사전 훈련된 BERT 기반 NER 모델을 사용했다.
- 추출된 증상 엔티티를 정규화하고 UMLS 개념과 매핑하는 과정을 거쳤다. 이 과정에서 CODER++와 퍼지 매칭 기법을 활용했으며, 수작업 검증을 통해 정확도를 높였다.
- 최종적으로 38,175개의 고유한 증상 표현을 966개의 UMLS 개념에 매핑하는 사전을 구축했다. 의료 전문가 검증 결과 95%의 정확도를 달성했다.
- 구축된 사전을 활용해 COVID-19 관련 트위터 데이터에서 증상을 추출한 결과, 기존 연구에 비해 더 다양한 증상을 포착할 수 있었다. 특히 정신 건강 관련 증상들이 많이 발견되었다.
이 연구는 소셜미디어 데이터 기반 공중 보건 연구에 활용될 수 있는 체계적이고 효율적인 증상 사전 구축 프레임워크를 제시했다. 구축된 사전은 공개되어 향후 관련 연구에 활용될 수 있다.
Statistieken
603,3184개의 증상 엔티티(498,480개 고유)가 4,401,304개의 트윗에서 추출되었다.
최종 사전에는 38,175개의 고유한 증상 표현이 966개의 UMLS 개념에 매핑되어 있다.
증상 빈도 분석 결과, 호흡 곤란(9.4%), 통증(9.1%), 기침(7.2%), 피로(5.9%), 발열(5.6%) 순으로 많이 나타났다.
기존 연구에 비해 불안(8.7%), 우울(7.0%), 스트레스(4.8%) 등 정신 건강 관련 증상이 더 많이 포착되었다.
Citaten
"소셜미디어 데이터 기반 공중 보건 연구는 전염병 감시에 매우 중요하지만, 대부분의 연구는 키워드 매칭 방식으로 관련 데이터를 식별한다."
"이 연구는 소셜미디어 데이터에서 일상적인 의학 용어를 체계적으로 사전화하는 과정을 표준화하고 단순화하는 것을 목표로 한다."