本報告分析了三家領先人工智能公司(Anthropic、Google DeepMind和OpenAI)從2022年1月到2024年7月期間發表的與安全人工智能開發相關的61篇論文。這些論文被歸類為八種安全方法。此外,我們還注意到了三個代表新興方法的類別,這些方法目前在這些領先人工智能公司的研究論文中尚未體現。我們的分析揭示了企業關注的重點以及潛在的差距。
我們還考慮了人工智能公司研究每種方法的激勵,包括聲譽影響、監管負擔以及這些方法可用於使公司的人工智能系統更有用的程度。我們發現了三個目前沒有或很少論文,且我們預計未來人工智能公司也不太可能更有動力去追求這些研究的類別。這些是多智體安全、失調模型生物體和設計安全。我們的發現表明,如果沒有政府、公民社會、慈善家或學術界的資金或努力,這些方法的進展可能會很緩慢。
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor