Konsep Inti
저자들은 라틴어의 자원 부족 환경과 시가 장르의 복잡한 감정을 고려하여 자동 극성 주석을 통해 가용 데이터를 증강하였다.
Abstrak
라틴어 감정 분석 작업은 일반적인 감정 분석 작업과 달리 자원이 부족하고 시가 장르와 같은 간접적인 감정 표현 방식을 다룬다는 특징이 있다.
저자들은 k-means 알고리즘을 기반으로 한 두 가지 데이터 증강 방법을 제안했다:
극성 좌표 클러스터링: 문장의 극성과 강도를 나타내는 좌표를 계산하고 이를 바탕으로 4개 클래스(긍정, 부정, 중립, 혼합)로 분류
가우시안 클러스터링: 사전 학습된 문장 임베딩과 극성 좌표 특징을 결합하여 가우시안 혼합 모델로 학습
다양한 라틴어 대규모 언어 모델을 활용한 신경망 모델을 통해 이러한 증강 데이터로 학습을 수행하였다.
가우시안 클러스터링 기반 데이터로 학습한 모델이 EvaLatin 2024 공동 과제에서 두 번째로 높은 매크로 F1 점수를 달성했다.
Statistik
기존 라틴어 감정 데이터셋인 Odes에는 긍정 20개, 부정 12개, 중립 3개, 혼합 9개의 문장이 포함되어 있다.
저자들이 제안한 PC 클러스터링 기반 데이터셋에는 긍정 10,427개, 부정 4,114개, 중립 57,786개, 혼합 4,178개의 문장이 포함되어 있다.
가우시안 클러스터링 기반 데이터셋에는 긍정 33,473개, 부정 14,333개, 중립 16,861개, 혼합 11,838개의 문장이 포함되어 있다.