이 연구에서는 위기 관련 소셜 미디어 텍스트를 위한 두 가지 다국어 문장 인코더(CT-XLMR-SE와 CT-mBERT-SE)를 소개했습니다. 두 모델 모두 학생-교사 네트워크에서 학생으로 훈련되었으며, CrisisTransformers의 단일 언어 문장 인코더가 공통 교사로 사용되었습니다.
훈련 과정에서 10개의 다양한 병렬 데이터셋을 사용하여 총 1억 2800만 개의 문장 쌍(예: en-es, en-de, en-fr 등)을 활용했습니다. 52개 언어에 걸쳐 문장 인코딩 작업과 문장 매칭 작업을 통해 모델을 평가했습니다. 두 작업 모두에서 결과는 긍정적이었으며, 모델이 교사의 벡터 공간을 잘 모방하고 다국어 기능도 잘 발휘한다는 것을 보여줍니다.
XLM-R과 mBERT은 각각 100개와 104개 언어로 훈련되었습니다. 우리는 이 모델들에 추가 훈련을 수행하여 CrisisTransformers의 문장 인코더 벡터 공간에 맞추었습니다. 이를 통해 52개 특정 언어에 대한 모델을 생성했습니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究