Core Concepts
다국어 코드 혼합 데이터에 대한 BERT 모델의 성능을 향상시키기 위해 Tri-Distil-BERT와 Mixed-Distil-BERT라는 두 가지 사전 학습 모델을 제안합니다.
Abstract
이 연구에서는 벵골어, 영어, 힌디어의 세 언어 코드 혼합에 대한 성능을 평가하기 위해 두 가지 사전 학습 모델을 제안했습니다.
Tri-Distil-BERT: 벵골어와 힌디어 OSCAR 데이터셋을 사용하여 사전 학습된 DistilBERT 모델
Mixed-Distil-BERT: Tri-Distil-BERT를 코드 혼합 데이터로 추가 사전 학습한 모델
이 두 모델을 감정 분석, 공격적 언어 탐지, 다중 레이블 감정 분류 등 세 가지 NLP 작업에 fine-tuning하고, 다른 BERT 모델들과 성능을 비교했습니다.
결과적으로 Mixed-Distil-BERT는 기존 이중 언어 코드 혼합 BERT 모델과 유사하거나 더 나은 성능을 보였습니다. 이는 제안된 두 단계 사전 학습 접근법이 다국어 및 코드 혼합 언어 이해에 효율적인 대안을 제공할 수 있음을 보여줍니다.
Stats
감정 분석 데이터셋에서 Mixed-Distil-BERT의 가중치 F1 점수는 0.50으로, XLM-R(0.51)에 비해 1% 낮았습니다.
감성 분석 데이터셋에서 Mixed-Distil-BERT의 가중치 F1 점수는 0.70으로, XLM-R(0.77)에 비해 7% 낮았습니다.
공격적 언어 탐지 데이터셋에서 Mixed-Distil-BERT의 가중치 F1 점수는 0.87로, XLM-R(0.88)에 비해 1% 낮았습니다.