Core Concepts
본 논문은 7개국 의회 토론 문장을 수작업으로 주석 처리한 새로운 다국어 데이터셋을 소개하고, 이를 활용하여 의회 토론 텍스트의 감정을 식별하는 강력한 모델을 개발하였다.
Abstract
본 논문은 다음과 같은 내용을 다룹니다:
보스니아-헤르체고비나, 크로아티아, 체코, 영국, 슬로바키아, 슬로베니아 등 7개국 의회 토론 문장 2,600개를 수작업으로 주석 처리한 ParlaSent 데이터셋을 소개합니다. 이 데이터셋은 긍정, 부정, 중립 등 3가지 감정 레이블로 구성되어 있습니다.
이 데이터셋을 활용하여 의회 토론 텍스트의 감정을 식별하는 강력한 다국어 모델 XLM-R-parla를 개발하였습니다. 이 모델은 기존 XLM-R 모델에 비해 의회 토론 텍스트의 감정 식별 성능이 크게 향상되었습니다.
실험 결과, XLM-R-parla 모델은 학습에 포함되지 않은 언어에 대해서도 우수한 성능을 보였습니다. 이는 다국어 모델이 언어 간 전이 학습을 통해 효과적으로 감정을 식별할 수 있음을 보여줍니다.
또한 다국어 모델이 단일 언어 모델보다 우수한 성능을 보였는데, 이는 다양한 언어와 의회 데이터를 활용하여 모델을 학습시키는 것이 효과적임을 시사합니다.
이 연구는 의회 토론 텍스트의 감정 분석을 위한 강력한 도구를 제공하며, 정치 커뮤니케이션 연구에 기여할 것으로 기대됩니다.
Stats
의회 토론 문장의 감정은 대체로 부정적인 것으로 나타났다.
슬로베니아와 영국 의회 토론 문장에서는 중립적인 감정이 상대적으로 더 많이 관찰되었다.
Quotes
"감정과 감정은 정치 영역에서 필수적인 역할을 하며, 정치인들은 수십 년 동안 이를 (남용)해왔다."
"정치 과학자들은 일반적으로 감정 분석이 정치 커뮤니케이션을 이해하는 데 있어 핵심적인 구성 요소라는 데 동의하지만, 영어권 이외의 실증적 적용은 여전히 드물다."