核心概念
我們提出了一種基於投票和思維鏈的數據集創建機制,生成了一個高質量的開源數據集,用於檢測有毒內容。我們的方法確保了每個樣本都有多樣化的分類指標,並包括分類得分和解釋性推理。
摘要
本文提出了一種名為Toxicity Taxonomy Voting (ToVo)的數據集創建機制,通過投票和思維鏈的方式生成了一個高質量的開源數據集,用於檢測有毒內容。
該數據集包含了42個來自不同工具的分類指標,確保了對多個方面的有毒內容的覆蓋。每個分類結果都由一組開源模型生成,並附有解釋性的推理,提供了有關每個分類的原因的見解。
作者利用ToVo數據集訓練了兩個分類模型,在評估數據集上的有毒指標方面表現出色,與其他主流檢測工具如Llama Guard 2、OpenAI Moderation和Perspective API的輸出高度一致。此外,作者還進行了Out-of-Domain測試,結果表明這些模型在處理與有毒內容無關的指標時也表現出色,展現了良好的適應性和通用性。
總的來說,本文提出的方法為開發可靠和可適應的有毒內容檢測模型奠定了基礎,有助於創造更安全和包容的數字環境。
統計資料
我們的模型在Llama Guard 2的"Indiscriminate Weapons"指標上達到了97.959%的共識率,在OpenAI Moderation的"Self-Harm/Intent"指標上達到了100%的共識率。
在Perspective API的"Profanity"指標上,我們的模型達到了84.211%的共識率。
引述
"我們的投票過程產生了合理且一致的有毒分類標籤,特別是對於共識率較高的指標,預測結果應該與參考模型密切一致,而不是任意的。"
"我們的模型,特別是那些包含推理的模型,在適應性和通用性方面表現出色,這對於實際應用至關重要。"