이 연구는 여성혐오 탐지를 위한 Hinglish 데이터셋을 제공하고 탐색적 데이터 분석(EDA)을 수행하여 데이터의 특성과 패턴을 이해하고자 한다.
데이터 전처리 및 정제 후 다음과 같은 EDA 기법을 적용하였다:
분석 결과, 여성혐오 댓글이 비여성혐오 댓글보다 일반적으로 더 길다는 것을 확인했다. 또한 코드 혼합 댓글이 별도의 클러스터를 형성하는 등 흥미로운 패턴을 발견했다. 이러한 통찰은 향후 모델링 과정에 유용하게 활용될 수 있다.
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Sargam Yadav... kl. arxiv.org 03-18-2024
https://arxiv.org/pdf/2403.09709.pdfDybere Forespørgsler