核心概念
ChatGPTは、ヘイトスピーチやテキストレベルのコンテキストバイアスの検出では優れた性能を示すが、より微妙なバイアス(人種、ジェンダー、認知バイアスなど)の検出では課題がある。
要約
本研究では、ChatGPTの性能をBARTやConvBERT、GPT-2などの微調整済みモデルと比較し、メディアバイアス検出における長所と短所を明らかにした。
ChatGPTは、ヘイトスピーチやテキストレベルのコンテキストバイアスの検出では、微調整済みモデルと同等の性能を示した。しかし、人種、ジェンダー、認知バイアスなどの微妙なバイアスの検出では課題があり、過剰に検出する傾向がある。これは、ChatGPTが大規模な学習データから得た一般的なパターンに依存しているのに対し、微調整済みモデルは人間による明示的なラベル付けに適応しているためと考えられる。
また、フェイクニュースや認知バイアスの検出では、ChatGPTは微調整済みモデルに大きく劣る。これらのバイアスは文脈に深く埋め込まれており、単一の入力文からでは判断が難しいためと考えられる。
本研究の結果は、大規模言語モデルであるChatGPTにも課題があることを示しており、メディアバイアス検出のためにはさらなる改善が必要であることを示唆している。今後は、少量のプロンプト学習や人間による評価などの手法を用いて、ChatGPTの性能向上を図ることが重要だと考えられる。
統計
メディアバイアス検出タスクにおける各モデルの微平均F1スコアは以下の通りです:
人種バイアス: ChatGPT 0.6288、BART 0.7873、ConvBERT 0.7540、GPT-2 0.7792
フェイクニュース: ChatGPT 0.5021、BART 0.7060、ConvBERT 0.6759、GPT-2 0.6739
テキストレベルコンテキストバイアス: ChatGPT 0.7445、BART 0.7602、ConvBERT 0.7873、GPT-2 0.7818
ヘイトスピーチ: ChatGPT 0.6929、BART 0.8725、ConvBERT 0.8784、GPT-2 0.8702
ジェンダーバイアス: ChatGPT 0.4945、BART 0.8262、ConvBERT 0.8263、GPT-2 0.8212
認知バイアス: ChatGPT 0.2362、BART 0.6582、ConvBERT 0.6673、GPT-2 0.6729