Conceptos Básicos
자동 회귀 언어 모델과 자동 인코더 언어 모델을 결합한 CAALM-TC는 특히 데이터 세트가 작고 분류 작업이 추상적인 경우 텍스트 분류 성능을 향상시키는 효과적인 방법이다.
Resumen
CAALM-TC: 자동 회귀 및 자동 인코더 언어 모델을 결합한 텍스트 분류
본 연구 논문에서는 자동 회귀 언어 모델과 자동 인코더 언어 모델을 결합한 CAALM-TC(Combining Autoregressive and Autoencoder Language Models for Text Classification)라는 새로운 텍스트 분류 방법을 제안한다. CAALM-TC는 특히 데이터 세트가 작고 분류 목표가 추상적인 작업에서 기존 방법보다 성능이 뛰어나 사회과학 연구에서 자동화된 콘텐츠 분석을 위한 확장 가능하고 효과적인 솔루션을 제공한다.
본 연구는 자동 회귀 언어 모델과 자동 인코더 언어 모델을 결합하여 텍스트 분류 성능을 향상시키는 것을 목표로 한다. 특히, 소규모 데이터 세트와 추상적인 분류 작업에서 CAALM-TC의 효과를 검증하고자 한다.
본 연구에서는 자동 회귀 언어 모델인 Mistral NeMo를 사용하여 입력 텍스트에 대한 문맥 정보를 생성하고, 원본 텍스트와 결합하여 자동 인코더 모델인 DeBERTa V3에 입력하여 분류를 수행한다.
실험 설정
모델: 자동 회귀 모델(Mistral NeMo Instruct), 자동 인코더 모델(DeBERTa V3, RoBERTa-large)
데이터 세트: Manifesto Corpus(군사, 전통적 도덕성), Coronanet(코로나19 정책), Davidson et al.(혐오 발언)
평가 지표: 매크로 F1 점수, 균형 정확도, 표준 정확도
비교 대상: 기준 DeBERTa V3, RoBERTa, BERT-NLI 모델(CAALM 미적용), Zero-shot 분류
분석 방법
훈련 샘플 크기를 다양하게 하여(100, 500, 1000, 2500, 5000, 25000, 전체 데이터) 성능 비교
각 조건 당 5회 반복 실험 수행(무작위 시드 42-46)
CAALM 적용 및 미적용 조건 간 성능 비교(매크로 F1 점수, 균형 정확도, 표준 정확도)
Zero-shot 분류와의 성능 비교