본 연구는 대규모 언어 모델(LLM)의 혐오 표현 탐지 성능을 종합적으로 평가하고 분석하였다.
먼저 LLM을 활용한 텍스트 분류 연구 동향을 살펴보았다. 이전에는 BERT, RoBERTa 등의 사전 훈련된 언어 모델을 활용하였으나, 최근에는 ChatGPT, GPT-4, Llama 2 등의 대규모 언어 모델이 주목받고 있다. 이들 모델은 다양한 자연어 처리 과제에서 뛰어난 성능을 보이며, 혐오 표현 탐지 분야에서도 활용 가능성이 높다.
실험에서는 Llama 2, Falcon, GPT 3.5 모델을 선정하여 HateCheck 데이터셋을 활용해 혐오 표현 탐지 성능을 평가하였다. 그 결과, GPT 3.5와 Llama 2가 80-90%의 높은 정확도와 F1 점수를 보였다. 반면 Falcon은 성능이 낮았다. 오류 분석을 통해 Llama 2와 Falcon은 일반적인 혐오 표현과 특정 대상에 대한 혐오 표현을 구분하는 데 어려움이 없었지만, GPT 3.5는 여성에 대한 혐오 표현 탐지에서 상대적으로 낮은 성능을 보였다. 또한 Llama 2는 비혐오 표현 분류에서 오류가 많아 표면적 특징에 의존하는 경향이 있음이 드러났다.
추가 실험에서는 프롬프트 방식에 따른 성능 변화를 살펴보았다. 예상과 달리 간단하고 명확한 프롬프트가 가장 좋은 성능을 보였다. 이는 복잡한 프롬프트가 오히려 모델의 이해를 방해할 수 있음을 시사한다.
이러한 결과를 바탕으로 LLM의 혐오 표현 탐지 성능 향상을 위한 모범 사례와 주의점을 제시하였다. 적절한 LLM 선택, 간단명료한 프롬프트 설계, 오류 분석을 통한 모델 개선, 편향 완화 등의 방안이 중요하다. 이를 통해 LLM이 온라인 혐오 표현 대응에 효과적으로 활용될 수 있을 것으로 기대된다.
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Tharindu Kum... alle arxiv.org 03-14-2024
https://arxiv.org/pdf/2403.08035.pdfDomande più approfondite