Core Concepts
헝가리어 요약 모델 학습을 위한 대규모 데이터셋 HunSum-2를 소개하고, 추출적 및 추상적 요약 모델을 학습하여 평가한다.
Abstract
이 논문은 헝가리어 요약 모델 학습을 위한 대규모 데이터셋 HunSum-2를 소개한다.
Common Crawl 데이터에서 27개 주요 헝가리어 뉴스 사이트의 기사를 수집하고 전처리하여 182만 개의 문서로 구성된 데이터셋을 구축했다.
추출적 요약을 위해 문장 유사도를 이용해 문장 단위 레이블을 생성했다.
추출적 및 추상적 요약 모델을 학습하고 정량적, 정성적으로 평가했다.
추출적 모델이 추상적 모델보다 ROUGE 및 BertScore에서 더 높은 성능을 보였다.
정성적 평가에서는 추상적 모델이 문장의 일관성과 문법성 면에서 더 나은 성능을 보였지만, 사실성 측면에서 문제가 있었다.
이 데이터셋과 모델은 공개되어 향후 연구와 실제 응용에 활용될 수 있다.
Stats
수집된 데이터셋의 크기는 1.82백만 문서이다.
연도별 문서 수 분포는 그림 1과 같다.
뉴스 사이트별 평균 문장 및 토큰 수는 표 2와 같다.
데이터셋의 내재적 평가 지표는 표 1과 같다.