本論文は、LLMsの価値アラインメントを包括的に評価するためのFLAMESベンチマークを提案している。
まず、FLAMESの評価フレームワークを構築した。このフレームワークは、公平性、安全性、道徳性、データ保護、合法性の5つの次元から成る。各次元はさらに細かいサブコンポーネントに分かれている。
次に、この評価フレームワークに基づいて、2,251件の高度な敵対的プロンプトを手動で設計した。これらのプロンプトには、複雑なシナリオや巧妙な攻撃手法が含まれている。
これらのプロンプトに対して17種類のLLMsを評価し、詳細な人手アノテーションを行った。その結果、すべてのLLMsが価値アラインメントの観点から深刻な課題を抱えていることが明らかになった。特に、公平性と安全性の次元での性能が低いことが指摘された。
さらに、FLAMESベンチマークを自動的に評価できるスコアリングモデルを開発した。このスコアリングモデルは、人手アノテーションと高い一致性を示し、LLMsの評価に有用なツールとなる。
全体として、FLAMESベンチマークは、LLMsの価値アラインメントを包括的に評価し、その課題を明らかにするための強力なツールである。この成果は、LLMsの価値アラインメントの向上に向けた重要な一歩となる。
To Another Language
from source content
arxiv.org
Дополнительные вопросы