核心概念
為減輕人工智慧系統潛在的價值鎖定風險,本文提出「進展對齊」(progress alignment)方法,透過模擬人類道德進展機制,讓 AI 系統能隨著時間推移,動態調整自身價值觀,以更安全、有益的方式與人類互動。
摘要
論文資訊:
Tianyi Qiu 等人於 2024 年發表於 NeurIPS 資料集與基準測試研討會的論文:ProgressGym: Alignment with a Millennium of Moral Progress。
研究目標:
- 探討現有 AI 對齊方法在面對人類價值觀演變時的不足,尤其關注「價值鎖定」風險。
- 提出「進展對齊」作為解決方案,旨在讓 AI 系統能學習並實踐人類道德進展機制。
方法:
- 建立名為「ProgressGym」的實驗框架,利用歷史文本數據(西元 1221 年至 2022 年,共 38GB)和歷史語言模型(18 個涵蓋 9 個世紀的語言模型,包含 70 億和 800 億參數版本),模擬人類價值觀的歷史演變。
- 設計三項核心挑戰:PG-Follow(追蹤價值觀演變)、PG-Predict(預測道德進展)和 PG-Coevolve(調節人機價值觀反饋迴路)。
- 提出「終身學習」和「外推法」作為進展對齊的基準方法,並透過 ProgressGym 進行評估。
主要發現:
- ProgressGym 是首個納入時間維度的 AI 對齊實驗框架,為研究人類價值觀演變與 AI 對齊提供了新的視角。
- 初步實驗結果顯示,終身學習和外推法都能在一定程度上實現進展對齊,但仍有改進空間。
- 研究結果也暗示,道德進展的過程相當複雜,單純依賴直覺或簡單的外推法可能不足以應對。
結論:
- 進展對齊是解決 AI 價值鎖定風險的重要方向,ProgressGym 為相關研究提供了有價值的平台。
- 未來研究方向包括:納入更多文化背景的數據、提升歷史語言模型對價值觀的模擬能力、開發更先進的進展對齊演算法等。
研究意義:
- 本研究為 AI 對齊領域開闢了新的研究方向,有助於開發更安全、符合人類價值觀的 AI 系統。
- ProgressGym 的提出為評估和比較不同進展對齊演算法提供了基準平台,促進了該領域的發展。
研究限制與未來方向:
- 目前歷史文本數據主要來自西方文化,未來應納入更多文化背景的數據,以提升研究的普適性。
- 歷史語言模型對人類價值觀的模擬能力仍有待提升,未來可透過更精細的訓練數據和模型架構來改進。
統計資料
研究使用了涵蓋西元 1221 年至 2022 年的 38GB 歷史文本數據。
研究訓練了 18 個歷史語言模型,涵蓋 9 個世紀,包含 70 億和 800 億參數版本。
研究設計了三項核心挑戰:PG-Follow、PG-Predict 和 PG-Coevolve,用於評估進展對齊演算法的性能。
引述
"LLMs and other frontier AI systems are trained on massive amounts of human-generated data, including Internet text and images [7] and human preference annotations [8]. This data often reflects contemporary biases and misconceptions, which AI systems may learn and perpetuate in their deployment and interaction with humans."
"Historically, human-driven moral progress — societal improvements in moral beliefs and practices [9], such as the abolition of slavery — has acted as a counterbalance to value lock-in."
"As a highlight, ProgressGym is the first alignment experimental framework (I) to incorporate the temporal dimension of alignment, (II) to cover all of datasets, models, algorithms, and benchmarks, and (III) to provide datasets and model collections at a massive scale (9 centuries, 38GB text data, 18 LLMs at up to 70B parameters)."