Core Concepts
L3Cube-MahaNews는 마라티어 뉴스 기사를 활용한 대규모 문서 분류 데이터셋으로, 12개의 다양한 주제 카테고리로 구성되어 있다. 이를 통해 마라티어 언어 처리 연구를 위한 복잡한 데이터셋을 제공한다.
Abstract
이 연구에서는 L3Cube-MahaNews라는 마라티어 뉴스 기반 문서 분류 데이터셋을 소개한다. 이 데이터셋은 다음과 같은 특징을 가지고 있다:
마라티어 언어의 가장 큰 감독 코퍼스로, 12개의 다양한 주제 카테고리로 구성된 총 108,643개의 레코드를 포함하고 있다.
문서 길이에 따라 단문 헤드라인 분류(SHC), 중간 문단 분류(LPC), 장문 문서 분류(LDC) 등 3개의 하위 데이터셋으로 구성되어 있다.
이 데이터셋을 활용하여 MahaBERT, IndicBERT, MuRIL 등 최신 BERT 모델의 성능을 평가하였으며, 단일 언어 모델인 MahaBERT가 가장 우수한 성능을 보였다.
이 데이터셋은 마라티어 문서 분류 연구를 위한 유용한 자원으로 활용될 것으로 기대된다.
Stats
뉴스 기사 헤드라인 분류(SHC) 데이터셋의 평균 단어 수는 약 10개이다.
뉴스 기사 문단 분류(LPC) 데이터셋의 평균 단어 수는 약 80개이다.
전체 뉴스 기사 분류(LDC) 데이터셋의 평균 단어 수는 약 300개이다.
Quotes
"L3Cube-MahaNews는 마라티어 언어의 가장 큰 감독 코퍼스로, 12개의 다양한 주제 카테고리로 구성되어 있다."
"이 데이터셋은 문서 길이에 따라 단문 헤드라인 분류(SHC), 중간 문단 분류(LPC), 장문 문서 분류(LDC) 등 3개의 하위 데이터셋으로 구성되어 있다."
"단일 언어 모델인 MahaBERT가 다국어 모델인 IndicBERT와 MuRIL보다 가장 우수한 성능을 보였다."