이 논문은 텔루구어 뉴스 헤드라인 분류를 위한 대규모 인간 주석 데이터셋 TeClass를 소개한다. 이 데이터셋은 26,178개의 기사-헤드라인 쌍으로 구성되어 있으며, 3개의 주요 범주(높은 관련성, 중간 관련성, 낮은 관련성)로 주석되어 있다.
다양한 기계학습 및 BERT 기반 모델을 사용하여 이 데이터셋에 대한 포괄적인 분석을 제공한다. 또한 이 데이터셋을 활용하여 관련성 높은 헤드라인 생성 모델의 성능 향상을 입증한다.
이 데이터셋과 주석 지침은 향후 연구를 장려하기 위해 공개될 예정이다.
Vers une autre langue
à partir du contenu source
arxiv.org
Idées clés tirées de
by Gopichand Ka... à arxiv.org 04-18-2024
https://arxiv.org/pdf/2404.11349.pdfQuestions plus approfondies