핵심 개념
저자들은 라틴어의 자원 부족 환경과 시가 장르의 복잡한 감정을 고려하여 자동 극성 주석을 통해 가용 데이터를 증강하였다.
통계
기존 라틴어 감정 데이터셋인 Odes에는 긍정 20개, 부정 12개, 중립 3개, 혼합 9개의 문장이 포함되어 있다.
저자들이 제안한 PC 클러스터링 기반 데이터셋에는 긍정 10,427개, 부정 4,114개, 중립 57,786개, 혼합 4,178개의 문장이 포함되어 있다.
가우시안 클러스터링 기반 데이터셋에는 긍정 33,473개, 부정 14,333개, 중립 16,861개, 혼합 11,838개의 문장이 포함되어 있다.