Core Concepts
소셜 미디어 데이터를 활용하여 자동으로 수질 관련 피드백을 수집하고 분석하는 시스템을 제안한다.
Abstract
이 연구는 수질 분석이라는 중요한 사회적 과제에 초점을 맞추고 있다. 수질은 사회의 경제적, 사회적 발전에 있어 핵심 요소이므로 수질 관리와 모니터링은 항상 공공 당국의 최우선 과제 중 하나이다. 수질을 보장하기 위해 오프라인 및 온라인 설문 조사와 같은 다양한 모니터링 및 평가 방법이 사용되고 있다. 그러나 이러한 설문 조사에는 참여자 수 제한, 낮은 빈도 등의 한계가 있다.
이 연구에서는 소셜 미디어 데이터를 활용하여 자동으로 수질 관련 피드백을 수집하고 분석하는 NLP 프레임워크를 제안한다. 이 프레임워크는 (i) 텍스트 분류와 (ii) 토픽 모델링의 두 가지 구성 요소로 이루어져 있다. 텍스트 분류를 위해 여러 개의 대형 언어 모델(LLM)을 활용하는 merit-fusion 기반 프레임워크를 제안한다. 토픽 모델링에서는 BERTopic 라이브러리를 사용하여 수질 관련 트윗의 숨겨진 토픽 패턴을 발견한다. 또한 다양한 지역과 국가에서 발생한 관련 트윗을 분석하여 전 세계, 지역, 국가별 문제와 수질 관련 우려 사항을 탐색한다. 이를 위해 대규모 데이터셋을 수집하고 수동으로 주석을 달아 향후 연구를 지원한다.
Stats
물 오염으로 인해 2017년 약 160만 명이 설사성 질병으로 사망했으며, 그 중 5세 미만 어린이가 1/3을 차지했다.
플라스틱, 농업 비료, 의약품 등 화학 오염물질로 인해 1940년대 이후 플랑크톤이 90% 감소했다.
Quotes
"물 없이는 생명이 불가능합니다. 물을 절약하고 생명을 구하세요. 한 방울 한 방울이 지구에서 살아갈 수 있는 날을 늘려줍니다."
"오염된 물을 마시면 콜레라, 설사, 이질, 장티푸스 등 질병에 걸릴 수 있습니다."