이 논문은 환경 및 생태 관련 주제에 대한 광범위한 트윗 데이터셋인 EcoVerse를 소개한다. 이 데이터셋은 3,023개의 수동 주석 처리된 영어 트윗으로 구성되어 있으며, 생태 관련성 분류, 환경 영향 분석, 입장 감지를 위한 새로운 3단계 주석 체계를 제안한다.
첫 번째 단계인 생태 관련성 분류는 트윗이 생태 관련인지 아닌지를 구분한다. 두 번째 단계인 환경 영향 분석은 생태 관련 트윗이 환경에 긍정적, 부정적/위협적, 중립적 영향을 미치는지 판단한다. 세 번째 단계인 입장 감지는 저자의 입장이 지지적, 중립적, 회의적/반대적인지 구분한다.
주석 작업 과정에서 높은 수준의 주석자 간 일치도를 보였으며, 이는 주석 체계의 신뢰성을 입증한다. 또한 BERT 기반 모델을 사용한 분류 실험 결과를 제시하며, 환경 관련 텍스트에 특화된 모델 개발의 필요성을 시사한다.
이 데이터셋은 환경 및 생태 관련 주제에 대한 다양한 연구를 촉진하기 위해 공개되었다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Francesca Gr... at arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05133.pdfDeeper Inquiries