核心概念
저자들은 신할라어 자연어 처리 연구를 위한 대규모 뉴스 코퍼스 NSina를 소개하고, 이를 활용한 다양한 벤치마크 과제를 제시한다.
統計
NSina 데이터셋은 총 506,932개의 신할라어 뉴스 기사로 구성되어 있다.
가장 많은 기사를 제공한 뉴스 매체는 Lankadeepa와 Hiru News로, 각각 141,663개와 130,729개의 기사를 포함하고 있다.
뉴스 기사의 토큰 수는 대부분 60-120개 사이이며, 헤드라인의 토큰 수는 6-12개 사이가 가장 많다.
引用
"NSina는 기존 신할라어 뉴스 코퍼스인 SinMin보다 크고 최신화된 데이터셋이다."
"저자들은 NSina를 활용하여 3가지 NLP 과제를 제시했는데, 이는 신할라어 자연어 처리 연구를 위한 중요한 벤치마크가 될 것이다."
"실험 결과, 다국어 트랜스포머 모델이 신할라어 전용 모델과 유사하거나 때로는 더 나은 성능을 보였다. 이는 신할라어 자연어 처리를 위한 보다 강력한 모델 개발이 필요함을 시사한다."