本文提出了一個名為"安全激勵監管拍賣(SIRA)"的新監管機制,以解決人工智慧模型部署中的安全、偏見和法律問題。
現有的人工智慧模型(如大型語言模型)可能會散布錯誤信息和煽動社會分裂,因此迫切需要一個框架來減輕這些危險,確保用戶安全。
作者提出了一個拍賣機制,要求開發者提交其模型以供監管機構評估。監管機構的目標是:a)禁止未達到最低安全標準的模型部署,b)激勵開發者生產更安全的模型。
作者證明了一個均衡策略,即開發者會提交超過最低安全標準的模型。這是通過設計一個獎勵機制實現的,即監管機構會額外獎勵那些模型安全性超過標準的開發者。
實驗結果表明,與簡單的監管框架相比,SIRA機制可以將模型安全性提高20%,參與率提高15%。
未來工作包括:1)建立一個現實的模型評估協議,2)擴展到數據分佈不同的異質環境。
In un'altra lingua
dal contenuto originale
arxiv.org
Approfondimenti chiave tratti da
by Marco Bornst... alle arxiv.org 10-04-2024
https://arxiv.org/pdf/2410.01871.pdfDomande più approfondite