מושגי ליבה
본 연구는 베트남어 자연어 이해 능력을 평가하기 위한 포괄적인 벤치마크 VLUE를 제안하고, 이를 통해 기존 모델들의 성능을 분석하며, 새로운 모델 CafeBERT를 소개한다.
תקציר
VLUE 벤치마크는 베트남어 자연어 이해 능력을 평가하기 위한 5가지 과제로 구성됨
기계 독해, 자연어 추론, 감정 인식, 혐오 발언 탐지, 품사 태깅
다양한 입력 유형(단일 문장, 문장 쌍, 문장 시퀀스)과 목표(추출, 분류, 시퀀스 레이블링)를 포함
7개의 최신 모델(다국어 및 베트남어 단일어 모델)을 VLUE 벤치마크에 평가한 결과, XLM-RoBERTa 모델이 전반적으로 가장 우수한 성능을 보임
단, 소셜 네트워크 도메인에서는 베트남어 단일어 모델인 PhoBERT가 더 나은 성능을 보임
본 연구는 XLM-RoBERTa 모델을 기반으로 한 새로운 모델 CafeBERT를 제안
대규모 베트남어 데이터로 추가 사전 학습하여 베트남어 이해 능력을 향상시킴
VLUE 벤치마크에서 모든 과제에서 최고 성능을 달성
סטטיסטיקה
베트남어 위키피디아 1GB와 온라인 뉴스 기사 17GB로 구성된 18GB 규모의 베트남어 텍스트 데이터를 사용하여 CafeBERT 모델 학습
ציטוטים
"본 연구는 베트남어 자연어 이해 능력을 평가하기 위한 포괄적인 벤치마크 VLUE를 제안한다."
"CafeBERT 모델은 XLM-RoBERTa 모델을 기반으로 하며, 대규모 베트남어 데이터로 추가 사전 학습하여 베트남어 이해 능력을 향상시켰다."