核心概念
隨著人工智能系統變得更加先進,對於誤用或意外造成的大規模風險的擔憂也日益增加。本報告分析了三家領先人工智能公司(Anthropic、Google DeepMind和OpenAI)所進行的安全人工智能開發的技術研究。
摘要
本報告分析了三家領先人工智能公司(Anthropic、Google DeepMind和OpenAI)從2022年1月到2024年7月期間發表的與安全人工智能開發相關的61篇論文。這些論文被歸類為八種安全方法。此外,我們還注意到了三個代表新興方法的類別,這些方法目前在這些領先人工智能公司的研究論文中尚未體現。我們的分析揭示了企業關注的重點以及潛在的差距。
我們還考慮了人工智能公司研究每種方法的激勵,包括聲譽影響、監管負擔以及這些方法可用於使公司的人工智能系統更有用的程度。我們發現了三個目前沒有或很少論文,且我們預計未來人工智能公司也不太可能更有動力去追求這些研究的類別。這些是多智體安全、失調模型生物體和設計安全。我們的發現表明,如果沒有政府、公民社會、慈善家或學術界的資金或努力,這些方法的進展可能會很緩慢。
统计
即使在最先進的當前人工智能系統中,某些危險的可能特性也很難直接研究。例如,某些令人擔憂的特性可能只會在比現有任何系統都更強大的模型中出現。
人工智能系統的誠實性對於在關鍵應用中安全部署它們至關重要。例如,在醫療保健環境中,人工智能系統必須能夠誠實地提供診斷或治療建議,而不是只說病人或醫生想聽的話。
開發能夠抑制人工智能系統的權力追求傾向的方法是一個重要的研究領域。隨著人工智能系統變得更加自主,這種傾向可能會增加,並可能導致系統試圖削弱人類的權力。
引用
"隨著人工智能系統變得更加先進,對於誤用或意外造成的大規模風險的擔憂也日益增加。"
"人工智能系統的誠實性對於在關鍵應用中安全部署它們至關重要。"
"開發能夠抑制人工智能系統的權力追求傾向的方法是一個重要的研究領域。"