本文提出了一種名為Toxicity Taxonomy Voting (ToVo)的數據集創建機制,通過投票和思維鏈的方式生成了一個高質量的開源數據集,用於檢測有毒內容。
該數據集包含了42個來自不同工具的分類指標,確保了對多個方面的有毒內容的覆蓋。每個分類結果都由一組開源模型生成,並附有解釋性的推理,提供了有關每個分類的原因的見解。
作者利用ToVo數據集訓練了兩個分類模型,在評估數據集上的有毒指標方面表現出色,與其他主流檢測工具如Llama Guard 2、OpenAI Moderation和Perspective API的輸出高度一致。此外,作者還進行了Out-of-Domain測試,結果表明這些模型在處理與有毒內容無關的指標時也表現出色,展現了良好的適應性和通用性。
總的來說,本文提出的方法為開發可靠和可適應的有毒內容檢測模型奠定了基礎,有助於創造更安全和包容的數字環境。
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies