본 연구는 자연어 처리 분야에서 데이터 증강의 필요성과 과제를 다룬다. 증오 발언 탐지 도메인, 소셜 미디어 어휘의 동적 특성, 그리고 대규모 신경망 모델 학습을 위한 데이터 요구사항 등이 데이터 증강의 주요 동기가 되고 있다.
기존 연구에서는 어휘 대체 기반의 데이터 증강 기법이 주로 사용되었으나, 이는 문장의 의미를 변화시킬 수 있어 지도 학습 모델의 성능에 부정적인 영향을 미칠 수 있다는 우려가 제기되었다.
이에 본 연구는 기존 방법과 BERT, 대규모 언어 모델 기반의 데이터 증강 기법을 포괄적으로 탐구한다. 특히, BERT 기반 인코더 모델과 문맥 코사인 유사도 필터링을 활용한 최적화된 데이터 증강 기법을 제안하고, 이를 기존 방법과 비교 분석한다.
실험 결과, 전통적인 back-translation 기법은 라벨 변경률이 낮지만(0.3-1.5%), BERT 기반 문맥 유사어 대체는 라벨 변경률이 높은(6% 이상) 단점이 있다. 반면, 제안한 BERT 코사인 유사도 필터링 기법은 라벨 변경률을 0.05%로 크게 낮추면서도 0.7% 높은 F1 성능 향상을 보였다.
한편, GPT-3와 같은 대규모 언어 모델을 활용한 데이터 증강은 과적합을 방지하면서도 임베딩 공간 커버리지를 15% 향상시키고 분류 F1 점수를 기존 방법 대비 1.4%, 제안 방법 대비 0.8% 높이는 등 큰 장점을 보였다.
이러한 결과는 대규모 언어 모델의 데이터 증강 활용이 증오 발언 탐지 등 자연어 처리 과제의 성능 향상에 크게 기여할 수 있음을 시사한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies