本論文は、人工知能と人間の目標の不整合を定量化するための新しいモデルを提案している。従来の研究は、人工知能の目標を人間の価値観に合わせることに焦点を当ててきたが、現実世界では人間同士の目標も必ずしも一致しない。そこで本研究では、人間と人工知能の両方を含む複雑な多主体システムにおける不整合を捉えるモデルを開発した。
このモデルでは、問題領域ごとに主体の目標と重要度を定義し、それらの不整合を確率的に表現する。シミュレーションの結果、主体数や目標の数、目標間の対立度合いなどが不整合に大きな影響を与えることが示された。また、自動運転車や商品推薦システムといった具体的な事例に適用し、モデルの有用性を示した。
本研究は、人工知能と人間の相互作用における複雑な不整合を捉える新しい枠組みを提供するものである。これにより、より現実的な人工知能の安全性や整合性の評価が可能になると期待される。また、人間同士の目標対立の問題にも応用できる汎用的なアプローチといえる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究