이 연구에서는 위기 관련 소셜 미디어 텍스트를 위한 두 가지 다국어 문장 인코더(CT-XLMR-SE와 CT-mBERT-SE)를 소개했습니다. 두 모델 모두 학생-교사 네트워크에서 학생으로 훈련되었으며, CrisisTransformers의 단일 언어 문장 인코더가 공통 교사로 사용되었습니다.
훈련 과정에서 10개의 다양한 병렬 데이터셋을 사용하여 총 1억 2800만 개의 문장 쌍(예: en-es, en-de, en-fr 등)을 활용했습니다. 52개 언어에 걸쳐 문장 인코딩 작업과 문장 매칭 작업을 통해 모델을 평가했습니다. 두 작업 모두에서 결과는 긍정적이었으며, 모델이 교사의 벡터 공간을 잘 모방하고 다국어 기능도 잘 발휘한다는 것을 보여줍니다.
XLM-R과 mBERT은 각각 100개와 104개 언어로 훈련되었습니다. 우리는 이 모델들에 추가 훈련을 수행하여 CrisisTransformers의 문장 인코더 벡터 공간에 맞추었습니다. 이를 통해 52개 특정 언어에 대한 모델을 생성했습니다.
To Another Language
from source content
arxiv.org
Viktige innsikter hentet fra
by Rabindra Lam... klokken arxiv.org 03-26-2024
https://arxiv.org/pdf/2403.16614.pdfDypere Spørsmål