為了解決日益增加的不當或有害內容風險,我們提出了一個全面和廣泛的有害數據集 VHD11K,並設計了一個新的基於多智能體視覺問答的註釋框架,以更好地考慮整個圖像或視頻的上下文,從而減少在邊緣情況下的錯誤判斷。