Conceptos Básicos
위기 관련 소셜 미디어 텍스트 분석을 위해 도메인 특화 사전 훈련된 언어 모델과 문장 인코더를 제안한다.
Resumen
이 연구는 위기 관련 소셜 미디어 텍스트 분석을 위한 CrisisTransformers라는 사전 훈련된 언어 모델과 문장 인코더를 소개한다.
- 15억 개의 단어 토큰으로 구성된 30개 이상의 위기 이벤트에 대한 대규모 트윗 데이터셋을 활용하여 CrisisTransformers를 사전 훈련했다.
- 18개의 위기 관련 공개 데이터셋에서 CrisisTransformers가 기존 모델들을 능가하는 성능을 보였다.
- CrisisTransformers 기반 문장 인코더는 현재 최고 성능 모델 대비 17.43% 향상된 성능을 달성했다.
- 모델 초기화 방식이 수렴 속도에 미치는 영향을 분석했다.
- 도메인 특화 모델이 의미 있는 문장 임베딩을 생성하는 데 도움이 된다는 것을 확인했다.
Estadísticas
15억 개의 단어 토큰으로 구성된 대규모 위기 관련 트윗 데이터셋을 활용했다.
30개 이상의 다양한 위기 이벤트(질병 발생, 자연재해, 분쟁 등)에 대한 트윗 데이터를 포함했다.
Citas
"소셜 미디어 플랫폼은 위기 커뮤니케이션에 필수적인 역할을 하지만, 위기 관련 소셜 미디어 텍스트 분석은 비공식적인 성격으로 인해 어려움이 있다."
"BERT 및 RoBERTa와 같은 Transformer 기반 사전 훈련 모델은 다양한 NLP 작업에서 성공을 거두었지만, 위기 관련 텍스트에 맞춰 설계되지 않았다."