데이터 증강 기술은 기존 텍스트에 변형을 가해 추가 데이터를 생성할 수 있지만, 변형된 텍스트의 의미가 변경되거나 이해할 수 없을 정도로 왜곡될 수 있다. 이러한 저품질 텍스트와 부적절한 레이블을 효과적으로 걸러내기 위해 INSPECTOR를 개발했다.
INSPECTOR는 데이터의 변형 이력(provenance)을 추적하여 관련 텍스트를 그룹화하고, 텍스트의 품질 지표와 대형 언어 모델의 예측 결과를 제공하여 사용자가 효과적으로 검수할 수 있도록 한다.
사용자 연구 결과, INSPECTOR를 사용하면 감정 분석 과제에서 3배, 혐오 발언 탐지 과제에서 4배 더 많은 올바른 레이블의 텍스트를 식별할 수 있었다. 사용자들은 변형 이력 기반 그룹화 기능을 가장 유용하게 평가했다. 반면 언어적 특징 기반 그룹화는 도움이 되지 않는다고 인식했다. 이는 단일 기술만으로는 데이터 검수의 필요성을 해결할 수 없음을 보여준다.
INSPECTOR를 통해 식별된 데이터로 모델을 학습시키면 랜덤 샘플링 데이터 대비 최대 32%의 모델 강건성 향상을 달성할 수 있었다. 이를 통해 INSPECTOR가 데이터 증강 기술로 생성된 텍스트 데이터의 효과적인 검수와 활용에 기여할 수 있음을 확인했다.
To Another Language
from source content
arxiv.org
Głębsze pytania