이 논문은 환경 및 생태 관련 주제에 대한 광범위한 트윗 데이터셋인 EcoVerse를 소개한다. 이 데이터셋은 3,023개의 수동 주석 처리된 영어 트윗으로 구성되어 있으며, 생태 관련성 분류, 환경 영향 분석, 입장 감지를 위한 새로운 3단계 주석 체계를 제안한다.
첫 번째 단계인 생태 관련성 분류는 트윗이 생태 관련인지 아닌지를 구분한다. 두 번째 단계인 환경 영향 분석은 생태 관련 트윗이 환경에 긍정적, 부정적/위협적, 중립적 영향을 미치는지 판단한다. 세 번째 단계인 입장 감지는 저자의 입장이 지지적, 중립적, 회의적/반대적인지 구분한다.
주석 작업 과정에서 높은 수준의 주석자 간 일치도를 보였으며, 이는 주석 체계의 신뢰성을 입증한다. 또한 BERT 기반 모델을 사용한 분류 실험 결과를 제시하며, 환경 관련 텍스트에 특화된 모델 개발의 필요성을 시사한다.
이 데이터셋은 환경 및 생태 관련 주제에 대한 다양한 연구를 촉진하기 위해 공개되었다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Francesca Gr... lúc arxiv.org 04-09-2024
https://arxiv.org/pdf/2404.05133.pdfYêu cầu sâu hơn