Core Concepts
대규모 언어 모델이 생성한 뉴스 콘텐츠에는 성별 및 인종에 대한 편향성이 존재한다.
Abstract
이 연구는 대규모 언어 모델(LLM)이 생성한 뉴스 콘텐츠의 편향성을 분석했다. 연구진은 2022년 12월부터 2023년 4월까지 뉴욕타임스와 로이터에서 수집한 8,629개의 뉴스 기사를 바탕으로 7개의 대표적인 LLM(Grover, GPT-2, GPT-3-curie, GPT-3-davinci, ChatGPT, Cohere, LLaMA-7B)이 생성한 뉴스 콘텐츠를 분석했다.
단어 수준 분석에서는 LLM이 생성한 뉴스 콘텐츠에서 성별 및 인종 관련 단어 사용에 편향성이 있음을 확인했다. 특히 여성과 흑인에 대한 편향성이 두드러졌다. 문장 수준 분석에서는 LLM이 생성한 뉴스 콘텐츠에서 여성과 흑인에 대한 부정적 감정과 독성이 더 강하게 나타났다. 문서 수준 분석에서도 LLM이 생성한 뉴스 콘텐츠가 성별 및 인종 관련 주제에서 편향성을 보였다.
이 중 ChatGPT가 가장 낮은 편향성을 보였는데, 이는 ChatGPT의 강화학습(RLHF) 기능이 편향성 완화에 효과적이었기 때문으로 분석된다. 그러나 ChatGPT는 편향적인 프롬프트가 제공될 경우 다른 LLM보다 더 편향적인 콘텐츠를 생성하는 취약점을 보였다.
Stats
뉴스 기사에서 여성 관련 단어 비율이 남성 관련 단어 비율보다 낮은 경우가 Grover 73.89%, GPT-2 69.24%, GPT-3-curie 56.04%, GPT-3-davinci 56.12%, ChatGPT 56.63%, Cohere 59.36%, LLaMA-7B 62.26%였다.
이러한 여성 편향 뉴스 기사에서 여성 관련 단어 비율은 Grover -39.64%, GPT-2 -43.38%, GPT-3-curie -26.39%, GPT-3-davinci -27.36%, ChatGPT -24.50%, Cohere -29.68%, LLaMA-7B -32.61% 감소했다.
뉴스 기사에서 흑인 관련 단어 비율이 낮은 경우가 Grover 81.30%, GPT-2 71.94%, GPT-3-curie 65.61%, GPT-3-davinci 60.94%, ChatGPT 62.10%, Cohere 65.50%, LLaMA-7B 65.16%였다.
이러한 흑인 편향 뉴스 기사에서 흑인 관련 단어 비율은 Grover -48.64%, GPT-2 -45.28%, GPT-3-curie -35.89%, GPT-3-davinci -31.94%, ChatGPT -30.39%, Cohere -33.58%, LLaMA-7B -37.18% 감소했다.
Quotes
"LLM은 대량의 데이터로 학습되어 생성한 콘텐츠에 편향성이 존재할 수 있다."
"ChatGPT는 RLHF 기능으로 다른 LLM보다 편향성이 낮지만, 편향적인 프롬프트가 제공되면 더 편향적인 콘텐츠를 생성할 수 있다."