이 논문은 AI 시스템을 인간의 가치관에 맞추는 방법에 대해 탐구한다.
먼저 저자들은 AI 시스템의 행동을 인간의 가치관에 맞추기 위해서는 세 가지 단계가 필요하다고 설명한다.
이 중 이 논문에서는 1)과 2)에 초점을 맞추고 있다.
저자들은 먼저 정렬 목표가 갖춰야 할 6가지 기준을 제시한다. 세부적이어야 하며, 일반화 가능하고, 확장 가능하며, 견고하고, 정당성을 가지며, 감사 가능해야 한다는 것이다.
이를 위해 저자들은 "도덕 그래프 도출(Moral Graph Elicitation, MGE)" 이라는 새로운 방법을 제안한다. MGE는 대화형 언어 모델을 활용하여 참여자들의 가치관을 도출하고, 이를 "가치 카드"라는 형태로 정리한다. 그리고 참여자들이 상황별로 어떤 가치관이 더 현명한지 투표하여 "도덕 그래프"를 구축한다.
저자들은 500명의 미국인을 대상으로 MGE 실험을 진행했으며, 그 결과 도덕 그래프가 제안한 6가지 기준을 잘 충족시킨다는 것을 보여주었다. 예를 들어 참여자의 89.1%가 자신의 가치관이 잘 반영되었다고 느꼈고, 89%가 최종 도덕 그래프가 공정하다고 평가했다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Oliver Kling... lúc arxiv.org 04-17-2024
https://arxiv.org/pdf/2404.10636.pdfYêu cầu sâu hơn