이 연구는 대규모 언어 모델(LLM)을 활용하여 혐오 발언 탐지 문제를 해결하고자 한다. 구체적으로 다음과 같은 연구 질문을 다룬다:
실험 결과, LLM은 미세 조정 없이도 기존 최고 모델 대비 큰 성능 향상을 보였다. 특히 Vicuna 모델의 경우 미세 조정 시 성능이 더 향상되었다. 다영역 실험에서는 Gab 데이터셋으로 미세 조정한 모델이 가장 우수한 일반화 성능을 보였다. 회귀 분석 결과, 데이터셋 크기와 내부 성능보다는 레이블 불균형이 일반화 성능의 주요 예측 요인으로 나타났다.
이 연구는 LLM을 활용한 혐오 발언 탐지 모델의 벤치마킹 프레임워크를 제시하고, 모델 성능 향상을 위한 핵심 요인을 밝혔다. 향후 연구에서는 레이블 생성 등 반지도 학습 기법의 활용과 문화적 맥락을 고려한 모델 개발이 필요할 것으로 보인다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Ahmad Nasir,... lúc arxiv.org 04-02-2024
https://arxiv.org/pdf/2310.18964.pdfYêu cầu sâu hơn