本文探討了人工智慧紅隊測試的人性因素,並從社會和協作計算的角度提出了相關的觀點。
首先,文章指出,隨著機器學習應用程序(尤其是那些由大型語言模型驅動的應用程序)變得越來越普及,研究人員已經研究了如何在遵守負責任的人工智慧標準的同時將這些技術整合到我們的生活中。由於人工智慧系統的廣泛應用和相對不可預測的性質,設計者和開發者很難預料所有可能的用途和後果。例如,生成式人工智慧工具已被證明會重現關於性別和種族的隱含刻板印象。
為了應對這些人工智慧系統造成的危害,許多領先的人工智慧公司(如OpenAI、Google、Microsoft和Anthropic)已經在其負責任的人工智慧倡議中採用了紅隊。紅隊測試被定義為"一個結構化的過程,用於探測人工智慧系統和產品,以識別有害的能力、輸出或基礎設施威脅"。然而,紅隊測試的定義和方法隨著實踐的發展而不斷變化,受到各個領域的進步和見解的影響。例如,Anthropic正在使用眾包工人來測試人工智慧系統,試圖使其生成有害內容。
紅隊測試涉及的人性因素,如測試人員的選擇、偏見和盲點,以及接觸有害內容對測試人員的心理影響,都需要更深入的研究和理解。紅隊測試的範圍因應用而有所不同,而紅隊測試的工作實踐和職業危害也可能因所嵌入的勞動安排而有很大差異。紅隊倡議依賴合同專家、永久員工、志願者、眾包工人和最終用戶。紅隊人員的身份和組織背景可能會以微妙和意想不到的方式影響人工智慧系統。因此,有必要對紅隊測試的社會技術生態系統進行全面的研究,包括從事工作的人、他們的方法和手段,以及他們的組織環境。
此外,重複接觸有害內容已被證明會對眾包工人和內容審核人員造成心理傷害。因此,在未來的研究中,有必要將紅隊人員的福祉置於中心位置。
本文旨在勾勒人工智慧紅隊測試不斷變化的景觀,並從當代和歷史的角度進行探討。我們將探索紅隊測試中的利益相關者角色,確定從業者的需求,並解決工人安全和福祉方面的問題。通過我們的討論和協作活動,我們的目標是:1)建立一個人工智慧紅隊測試研究網絡,促進研究人員和從業者之間的跨學科合作;2)整理出一份非正式的後續研討會報告,供從業者和研究人員參考。
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania