核心概念
雖然生成式 AI 有潛力用於撰寫客製化的反制仇恨言論,但實際上效果不彰,甚至可能適得其反,加劇網路 hostility。
研究背景
網路仇恨言論對個人福祉和社會凝聚力構成嚴重威脅。反制仇恨言論,即鼓勵使用者重新思考仇恨言論的直接回應,被視為遏止網路仇恨言論的有效方法。然而,現有方法缺乏可擴展性,需要人工介入,或無法適應特定情境。生成式 AI,特別是大語言模型 (LLM),為撰寫客製化的反制仇恨言論訊息提供了潛在的解決方案。
研究方法
本研究旨在探討由 LLM 生成的客製化反制仇恨言論是否能有效遏止網路仇恨言論。研究人員在社群媒體平台 Twitter/X 上進行了一項大規模、預先註冊的田野實驗 (N=2,664)。實驗採用 2x2 受試者間設計,並設置了一個沒有反制仇恨言論的控制組。
**實驗組:**發布仇恨言論的使用者被隨機分配到以下其中一組:
客製化反制仇恨言論組:由 LLM 根據特定仇恨言論生成客製化訊息。
非客製化反制仇恨言論組:使用預先定義的通用訊息。
**反制策略:**兩種反制策略:
促進同理心
警告網路不當行為的後果
結果變數:
刪除貼文的比率
仇恨貼文數量
毒性相對變化
研究結果
與控制組相比,非客製化的警告後果策略顯著減少了網路仇恨言論。
由 LLM 生成的客製化反制仇恨言論效果不彰,甚至可能適得其反。
與非客製化反制仇恨言論相比,LLM 生成的客製化反制仇恨言論效果較差,甚至可能增加網路 hostility。
研究結論
研究結果顯示,LLM 生成的客製化反制仇恨言論在減少網路仇恨言論方面效果不彰,甚至可能適得其反。這突顯了在線上環境中部署 LLM 驅動的社會干預措施時,需要謹慎行事,並深入了解 LLM 干預措施最有效的條件。
統計資料
本研究在 Twitter/X 上進行了一項大規模、預先註冊的田野實驗,樣本數為 2,664。
在控制組中,平均有 7.13% 的使用者刪除了他們最初的仇恨言論。
接受非客製化警告後果策略的使用者中,平均有 7.72% 的使用者刪除了他們的仇恨言論。
與控制組相比,接受非客製化警告後果策略的使用者,在干預措施後的兩週內,平均發布的仇恨言論少了 1.03 則。
與非客製化警告後果策略相比,接受 LLM 生成的客製化警告後果策略的使用者,在干預措施後的兩週內,平均發布的仇恨言論多了 0.84 則。
與非客製化促進同理心策略相比,接受 LLM 生成的客製化促進同理心策略的使用者,其言論的毒性平均增加了 2.80 個百分點。