Core Concepts
L3Cube-IndicNews는 인도 지역어 뉴스 기사와 문서를 분류하기 위한 고품질 다국어 데이터셋이다.
Abstract
L3Cube-IndicNews는 다음과 같은 특징을 가진 데이터셋이다:
11개의 주요 인도 지역어(힌디어, 벵골어, 마라티어, 텔루구어, 타밀어, 구자라트어, 칸나다어, 오디아어, 말라얄람어, 펀자브어, 영어)를 포함한다.
각 언어 데이터셋은 10개 이상의 뉴스 기사 카테고리로 구성된다.
3가지 서로 다른 문서 길이의 데이터셋을 제공한다:
짧은 제목 분류(SHC) 데이터셋
긴 문서 분류(LDC) 데이터셋
긴 문단 분류(LPC) 데이터셋
각 데이터셋은 최소 26,000개 이상의 행으로 구성되어 있다.
모노링구얼 BERT, 멀티링구얼 IndicSBERT, IndicBERT 모델을 사용하여 평가했다.
이 데이터셋은 인도 지역어 NLP 연구를 위한 중요한 자원이 될 것이다.
Stats
각 언어 데이터셋은 최소 26,000개 이상의 행으로 구성되어 있다.
각 데이터셋은 10-12개의 뉴스 기사 카테고리를 포함한다.
데이터셋은 80:10:10의 비율로 훈련, 테스트, 검증 데이터로 분할되었다.