核心概念
當標註者對網路言論毒性意見不一時,整合標註者個人資訊,如背景調查和歷史評分,能更準確地預測個別標註者的評分,進而更精準地判斷言論毒性。
本研究旨在探討如何在標註者對網路言論毒性意見不一致的情況下,更準確地預測個別標註者的評分。
研究人員開發並測試了三種不同的模型:
神經協同過濾模型 (NCF): 結合文本嵌入和標註者嵌入,利用神經網路架構預測標註者的毒性評分。
基於嵌入的架構: 使用文本嵌入模型生成文本和標註者資訊的嵌入,並將其輸入到一個多層全連接網路中,以預測毒性評分。
上下文學習模型 (ICL): 使用大型語言模型 (LLM),例如 Mistral 和 GPT-3.5,並提供標註者資訊作為上下文,以預測毒性評分。
研究人員使用了 Kumar 等人 (2021) 的數據集,其中包含由五名標註者評分的句子,評分範圍從 0(最無毒)到 4(最毒)。 他們測試了不同模型在使用不同組合的標註者資訊(人口統計、調查回覆、評分歷史)時的性能。