Concepts de base
DeMod 是一款基於 ChatGPT 的網路言論審查工具,旨在幫助用戶在發布前主動審查其言論內容,避免發布帶有毒性的言論。
Résumé
DeMod:一款基於 ChatGPT 的網路言論審查工具
本研究旨在探討社交媒體用戶在審查網路言論毒性方面的需求,並設計一款名為 DeMod 的工具來滿足這些需求。DeMod 是一款基於 ChatGPT 的網路言論審查工具,旨在幫助用戶在發布前主動審查其言論內容,避免發布帶有毒性的言論。
研究背景
隨著社交媒體的普及,網路言論毒性問題日益嚴重。為了避免發布帶有毒性的言論,用戶通常會在發布前進行自我審查或依賴平台的審核機制。然而,自我審查往往受限於用戶的知識、經驗和時間,而平台審核則缺乏用戶控制、解釋不足且準確性較低。
DeMod 的設計目標
為了改善現有審查方式的不足,本研究提出了五個設計目標:
- 提供整體審查:DeMod 應提供毒性檢測和修改等整體功能。
- 提供細粒度的檢測結果:DeMod 應提供細粒度的檢測結果,包括相關句子、短語和詞彙。
- 增強可解釋性:DeMod 應提供對檢測結果的即時解釋,並模擬受眾對帖子的態度,幫助用戶了解潛在影響。
- 提供個性化的修改建議:DeMod 應提供修改建議,在消除毒性的同時保留原文語義和用戶的個人語言風格。
- 確保用戶控制:DeMod 應在用戶知情和控制的情況下進行內容審查,僅提供建議,最終決定權在用戶手中。
DeMod 的主要功能
DeMod 主要包含三個模組:
- 用戶授權:獲取用戶對微博個人資料的訪問權限,例如歷史帖子和社交關係。
- 可解釋的檢測:基於 ChatGPT 進行毒性檢測和解釋,提供多粒度檢測結果(包括分類和關鍵字)以及詳細解釋(包括即時解釋和動態解釋)。
- 個性化修改:基於用戶歷史帖子和 ChatGPT 的 few-shot learning 能力,提供修改建議,在消除毒性的同時盡可能保留原文語義和用戶的個人語言風格。
評估結果
評估結果顯示,DeMod 在毒性檢測和修改方面均表現出色,並獲得了參與者的高度認可。DeMod 能夠幫助用戶快速準確地識別帖子問題,並提供個性化的修改建議。
總結
DeMod 是一款基於 ChatGPT 的網路言論審查工具,旨在幫助用戶在發布前主動審查其言論內容,避免發布帶有毒性的言論。DeMod 具備可解釋的檢測和個性化修改功能,能夠有效地幫助用戶進行網路言論審查。
Stats
微博月活躍用戶數超過 6 億。
從 2022 年 11 月到 2023 年 8 月,微博上識別出的攻擊性言論超過 1.2 億條。
71.60% 的受訪者使用微博。
63.94% 的受訪者會在微博上發布帖子。
72.44% 的受訪者選擇自我審查來審查網路言論毒性。
58.33% 的受訪者選擇依賴微博的平台審核機制。
DeMod with GPT-4 模型的準確率達到 73.50%。
DeMod with GPT-3.5-turbo 模型的準確率達到 69.35%。
Perspective API 的準確率為 52.45%。
經過 DeMod 修改後,有毒樣本的比例下降了 94.38%,從 3,211 個減少到 170 個。
Citations
"這個工具可以大大減輕我的負擔。我經常沒有意識到我的話可能會傷害到別人。"
"我只想發布帖子,希望有一個整體工具可以指出我的問題並提供修改建議。"
"僅僅告訴我我的帖子是否有毒是不夠的。應該識別出可能傷害他人的特定詞語或短語。"
"應該直接突出顯示關鍵字。我不想浪費時間,這只是一個帖子。"
"對於那些我可能沒有意識到的有毒內容,最好提供一些理由讓我明白我是否應該發布這些內容。"
"突出顯示的詞語會更加清晰直觀。"
"通常會有人對我的話感到不滿,我也不喜歡被別人說教。這個功能(了解帖子內容的潛在社會影響)非常有趣,因為它可以讓我了解我的話語或表達在對話中是否有任何問題。"
"如果有一些不恰當的句子或詞語,最好能自動替換成一些委婉的表達方式,我不想直接編輯。"
"我重視我平時的說話風格。如果修改得太正式,就沒有必要出現在我的社交媒體上了。"
"自動修改功能應該給出一些建議,而不是直接發布。我更喜歡自己修改。"
"我更喜歡隨時使用不同的功能。有時,檢測就足夠了。"
"準確的檢測"
"詳細的解釋"
"精確的識別"
"新穎的"
"有趣的"
"獨特的"
"吸引人的"
"這個功能非常棒,它很快讓我意識到我不應該在我的言論中表達那麼多情緒。"
"這有點類似於預測對話發展趨勢的過程,這對於患有社交恐懼症的用戶來說是必要的。"
"回复看起來不像我的朋友,對我沒有用。而且,我不能繼續參與對話並表達自己。"
"支持互動會更好。"
"檢測中可以引入不同的級別嗎?比如歧視、攻擊性語言、侮辱和諷刺。"
"它能夠自動修改攻擊性和侮辱性的詞語,並且修改後的文本盡可能地保留了語義。"
"一鍵自動修改按鈕非常方便。修改總體上滿足了我的需求,帖子只需稍作修改即可發布。"
"方便的"
"容易的"
"自動的"
"毒性修改很有問題,經常完全改變了原文的意圖,把批判的態度改成了中立甚至積極的態度。"
"我希望它能顯示原文,幫助我快速查看修改了哪些內容。"