核心概念
코드 혼합 Hinglish 데이터셋에 대한 탐색적 데이터 분석을 통해 여성혐오 탐지를 위한 유용한 통찰을 얻을 수 있다.
摘要
이 연구는 여성혐오 탐지를 위한 Hinglish 데이터셋을 제공하고 탐색적 데이터 분석(EDA)을 수행하여 데이터의 특성과 패턴을 이해하고자 한다.
데이터 전처리 및 정제 후 다음과 같은 EDA 기법을 적용하였다:
- 단어 구름 분석: 데이터셋의 가장 빈번한 단어 확인
- 감정 분석: 댓글의 감정 극성 분포 확인
- 댓글 길이 분석: 여성혐오 및 비여성혐오 댓글의 평균 단어 수 비교
- PCA 분석: 3개의 클러스터 확인, 코드 혼합 댓글이 별도의 클러스터를 형성
분석 결과, 여성혐오 댓글이 비여성혐오 댓글보다 일반적으로 더 길다는 것을 확인했다. 또한 코드 혼합 댓글이 별도의 클러스터를 형성하는 등 흥미로운 패턴을 발견했다. 이러한 통찰은 향후 모델링 과정에 유용하게 활용될 수 있다.
统计
여성혐오 댓글의 평균 단어 수는 32.72개로, 비여성혐오 댓글의 평균 단어 수 19.91개보다 1.6배 더 길다.
引用
"Marriage doesn't mean only sex. It's emotional physical and spiritual"
"Soch par fakrah hay !! Savage!!"
"the fact there is not any law regarding such a big issue tells a lot about our country"