toplogo
登入
洞見 - 計算機視覺 - # 視覺危害性識別

視覺危害性識別的可擴展多模態數據集:T2Vs 遇上 VLMs


核心概念
為了解決日益增加的不當或有害內容風險,我們提出了一個全面和廣泛的有害數據集 VHD11K,並設計了一個新的基於多智能體視覺問答的註釋框架,以更好地考慮整個圖像或視頻的上下文,從而減少在邊緣情況下的錯誤判斷。
摘要

本文提出了一個名為 Visual Harmful Dataset 11K (VHD11K) 的可擴展多模態有害數據集,包含10,000張圖像和1,000個視頻,涵蓋10個類別的有害內容。為了註釋這些數據,作者設計了一個新的基於多智能體視覺問答的註釋框架,利用預訓練的視覺語言模型(VLMs)作為註釋者,考慮整個圖像或視頻的上下文,而不僅僅是潛在的有害物體,從而減少在邊緣情況下的錯誤判斷。

作者首先收集了來自互聯網和4個生成模型的原始圖像和視頻,然後將註釋過程構建為一個多智能體視覺問答任務,讓3個不同的VLMs扮演"法官"、"正方辯手"和"反方辯手"的角色,就給定的樣本是否有害進行辯論。這個辯論過程確保了VLMs在做出決定之前考慮了雙方的論點,進一步降低了在邊緣情況下的錯誤判斷可能性。

此外,作者使用上下文學習技術來確保註釋者與有害內容的定義保持一致,並利用大型語言模型(LLM)提取10個代表所有圖像和視頻有害內容的類別。

為了驗證數據集的可靠性和有效性,作者進行了大量實驗。首先,他們使用自己的註釋者對現有有害內容數據集進行註釋,結果顯示與人工註釋高度一致。接下來,他們對8種現有的有害內容識別方法進行了實驗和分析,發現它們無法全面檢測各種有害內容。最後,他們通過在VHD11K上微調一個視覺語言模型,展示了該數據集在有害內容識別任務上的出色性能,優於現有數據集。

edit_icon

客製化摘要

edit_icon

使用 AI 重寫

edit_icon

產生引用格式

translate_icon

翻譯原文

visual_icon

產生心智圖

visit_icon

前往原文

統計資料
有害內容的圖像和視頻數量相等,每類各佔一半。 每個有害類別中,真實和合成樣本各佔一半。 10個有害類別分別是:暴力和威脅、物質濫用、動物福利和環境保護、心理健康和自我傷害、兒童危害、露骨和性內容、歧視性內容和文化不敏感、隱私和同意侵犯、身材和美容標準、虛假信息和欺騙性內容。
引述
"為了解決日益增加的不當或有害內容風險,我們提出了一個全面和廣泛的有害數據集 VHD11K,並設計了一個新的基於多智能體視覺問答的註釋框架,以更好地考慮整個圖像或視頻的上下文,從而減少在邊緣情況下的錯誤判斷。" "這個辯論過程確保了VLMs在做出決定之前考慮了雙方的論點,進一步降低了在邊緣情況下的錯誤判斷可能性。" "最後,我們通過在VHD11K上微調一個視覺語言模型,展示了該數據集在有害內容識別任務上的出色性能,優於現有數據集。"

從以下內容提煉的關鍵洞見

by Chen Yeh, Yo... arxiv.org 10-01-2024

https://arxiv.org/pdf/2409.19734.pdf
T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition

深入探究

如何進一步擴展VHD11K,涵蓋更多類型的有害內容?

要進一步擴展VHD11K以涵蓋更多類型的有害內容,可以考慮以下幾個策略。首先,應該進行更廣泛的文獻回顧和社會調查,以識別當前社會中出現的新興有害內容類型,例如網絡欺凌、虛假信息和極端主義內容。其次,可以引入更多的關鍵字和範疇,並利用社交媒體和論壇等平台進行數據爬取,以獲取更具代表性的樣本。此外,應考慮與心理健康專家和社會學者合作,確保所收集的數據能夠反映出不同社會群體的需求和擔憂。最後,通過持續的數據更新和迭代,保持數據集的時效性和相關性,從而更好地應對不斷變化的有害內容。

如何設計更加可靠和公正的有害內容識別系統,避免出現偏見和歧視?

設計一個可靠和公正的有害內容識別系統需要多方面的考量。首先,應該在數據收集階段確保樣本的多樣性,避免因為數據偏見而導致的識別不準確。這可以通過引入來自不同文化、社會和經濟背景的數據來實現。其次,應該在模型訓練過程中使用公平性指標,定期評估模型在不同群體上的表現,並進行必要的調整。此外,應該引入人類審核機制,特別是在邊緣案例中,確保系統的決策過程透明且可解釋。最後,持續的用戶反饋和社會監督也是至關重要的,這能夠幫助識別和修正系統中的潛在偏見和歧視。

VHD11K的數據集對於其他與人類福祉相關的研究領域,如心理健康、社會公平等,有哪些潛在的應用價值?

VHD11K數據集在多個與人類福祉相關的研究領域中具有潛在的應用價值。首先,在心理健康領域,該數據集可以用於研究有害內容對青少年心理健康的影響,幫助開發針對性干預措施。其次,在社會公平方面,VHD11K可以用來分析不同社會群體對有害內容的敏感性,從而促進更公平的內容監管政策。此外,該數據集還可以支持機器學習模型的訓練,幫助開發更有效的內容過濾和識別系統,從而保護弱勢群體免受有害內容的影響。最後,VHD11K的多模態特性使其在跨領域研究中具有廣泛的應用潛力,例如結合社會學、心理學和計算機科學的研究,促進對有害內容的全面理解和應對。
0
star