本文提出了一個名為 Visual Harmful Dataset 11K (VHD11K) 的可擴展多模態有害數據集,包含10,000張圖像和1,000個視頻,涵蓋10個類別的有害內容。為了註釋這些數據,作者設計了一個新的基於多智能體視覺問答的註釋框架,利用預訓練的視覺語言模型(VLMs)作為註釋者,考慮整個圖像或視頻的上下文,而不僅僅是潛在的有害物體,從而減少在邊緣情況下的錯誤判斷。
作者首先收集了來自互聯網和4個生成模型的原始圖像和視頻,然後將註釋過程構建為一個多智能體視覺問答任務,讓3個不同的VLMs扮演"法官"、"正方辯手"和"反方辯手"的角色,就給定的樣本是否有害進行辯論。這個辯論過程確保了VLMs在做出決定之前考慮了雙方的論點,進一步降低了在邊緣情況下的錯誤判斷可能性。
此外,作者使用上下文學習技術來確保註釋者與有害內容的定義保持一致,並利用大型語言模型(LLM)提取10個代表所有圖像和視頻有害內容的類別。
為了驗證數據集的可靠性和有效性,作者進行了大量實驗。首先,他們使用自己的註釋者對現有有害內容數據集進行註釋,結果顯示與人工註釋高度一致。接下來,他們對8種現有的有害內容識別方法進行了實驗和分析,發現它們無法全面檢測各種有害內容。最後,他們通過在VHD11K上微調一個視覺語言模型,展示了該數據集在有害內容識別任務上的出色性能,優於現有數據集。
翻譯成其他語言
從原文內容
arxiv.org
深入探究