핵심 개념
AAdaM 시스템은 기계 번역을 통한 데이터 증강과 과제 적응형 사전 학습을 활용하여 다국어 의미 텍스트 관련성 측정 성능을 향상시킨다.
초록
이 논문은 SemEval-2024 Task 1: 아프리카 및 아시아 언어의 의미 텍스트 관련성 측정을 위해 개발된 AAdaM 시스템을 소개한다.
- 데이터가 제한적인 비영어권 언어에 대해 기계 번역을 통한 데이터 증강을 수행하였다.
- 과제 적응형 사전 학습을 통해 사전 학습된 모델을 과제에 더 잘 적응시켰다.
- 완전 미세 조정과 어댑터 기반 미세 조정 두 가지 학습 방식을 탐구하였다.
- 어댑터 프레임워크를 활용하여 효과적인 영어 이외 언어로의 영어 지식 전이를 달성하였다.
- 감독 학습 과제(subtask A)와 영어 이외 언어로의 영어 지식 전이 과제(subtask C)에서 모두 우수한 성능을 달성하였다.
통계
영어 데이터는 전체 데이터의 32%를 차지하여 다른 언어에 비해 압도적으로 많다.
언어별 데이터 크기의 편차가 매우 크다.
인용구
"데이터가 제한적인 비영어권 언어에 대해 기계 번역을 통한 데이터 증강을 수행하였다."
"과제 적응형 사전 학습을 통해 사전 학습된 모델을 과제에 더 잘 적응시켰다."
"어댑터 프레임워크를 활용하여 효과적인 영어 이외 언어로의 영어 지식 전이를 달성하였다."