Core Concepts
본 연구는 다국어 데이터 번역 프레임워크와 LDA/HDP 모델을 활용하여 코로나19 팬데믹 기간 동안 튀니지 소셜 네트워크의 주제 동향과 트렌드를 효과적으로 식별하였다.
Abstract
본 연구는 코로나19 팬데믹, 스포츠, 정치 등 다양한 주제에 대한 튀니지 소셜 네트워크의 다국어 댓글 데이터를 수집하고 정제하였다. 이후 영어 이외의 언어를 영어로 번역하는 새로운 접근법을 도입하였다. 이를 통해 언어적 차이를 극복하고 효과적인 다국어 주제 모델링을 수행하였다.
LDA와 HDP 모델을 활용하여 번역된 내용에서 관련 주제를 추출하고, ARIMA 시계열 분석을 적용하여 주제 트렌드를 식별하였다. 튀니지 데이터에 이 방법을 적용한 결과, 공중 여론을 반영하는 핵심 주제를 효과적으로 식별할 수 있었다. 기존 접근법과 비교하여 제안 모델이 일관성 점수, U-mass, 주제 일관성 등의 지표에서 우수한 성능을 보였다. 또한 식별된 주제에 대한 심층 평가를 통해 논의의 주제적 변화를 확인할 수 있었고, 트렌드 식별 결과의 정확성도 RMSE 분석을 통해 입증되었다.
Stats
코로나19 관련 주제는 전체 데이터의 31%를 차지한다.
스포츠 관련 주제는 전체 데이터의 24%를 차지한다.
정치 관련 주제는 전체 데이터의 21%를 차지한다.
Quotes
"본 연구는 다국어 주제 동향 해독과 위기 상황 중 의사소통 트렌드 식별을 위한 새로운 방법론을 제시한다."
"제안된 데이터 번역 프레임워크는 언어적 장벽을 극복하고 튀니지 소셜 네트워크의 다국어 텍스트 데이터에 대한 심층 분석을 가능하게 한다."
"LDA와 HDP 모델의 통합을 통해 코로나19 팬데믹 확산 과정에서의 잠재적 주제와 트렌드를 효과적으로 밝혀낼 수 있었다."