本論文では、人工知能システムを人間の価値観に合わせるための方法として、「道徳グラフ抽出」(Moral Graph Elicitation: MGE)プロセスを提案している。MGEプロセスでは、まず、参加者に特定の状況における重要な考慮事項(価値観)を対話形式で引き出す。次に、参加者に対して、2つの価値観のうちどちらがその状況でより賢明であるかを判断してもらう。この過程を通じて、状況に応じた価値観の階層構造(道徳グラフ)が構築される。
この道徳グラフは、6つの基準(詳細性、一般化可能性、スケーラビリティ、堅牢性、正当性、監査可能性)を満たすことが示されている。具体的には、価値観が文脈依存的かつ詳細に表現されており、新しい状況にも適用可能である。また、多くの参加者の意見を集約することで、正当性が高く、操作されにくい。さらに、価値観の関係性が明示的に表現されているため、監査可能性も高い。
最後に、この道徳グラフを用いて人工知能モデルの行動を学習させる方法について議論されている。人工知能システムの振る舞いを人間の価値観に合わせることで、人間の幸福につながる解決策を見出すことができると期待される。
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Oliver Kling... at arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10636.pdfDeeper Inquiries