核心概念
상황 맥락적 도덕적 가치 정렬 시스템은 다양한 도덕적 가치를 가진 대화 에이전트들을 통합하여 사용자의 도덕적 성향에 맞는 응답을 생성할 수 있다.
摘要
이 논문은 상황 맥락적 도덕적 가치 정렬(CMVA) 문제를 다룬다. CMVA는 AI 시스템의 목표와 행동이 상황과 문화에 따라 달라질 수 있는 인간의 가치, 선호도 및 윤리적 원칙과 일치하도록 하는 것을 목표로 한다.
제안된 CMVA-GS 시스템은 다음과 같이 작동한다:
- 각 도덕적 가치(배려, 공정성, 권위, 순결)에 대해 독립적으로 훈련된 도덕적 가치 에이전트들이 있다.
- 사용자의 도덕적 성향 벡터와 에이전트들의 응답을 상황 집계기(CA)가 통합하여 최종 응답을 생성한다.
실험 결과, CMVA-GS 모델이 기존 모델들에 비해 인간의 가치와 더 잘 정렬된 응답을 생성하는 것으로 나타났다.
統計資料
도덕적 가치 에이전트의 각 도덕적 가치에 대한 정렬 확률은 다음과 같다:
권위: 98.83%
공정성: 92.40%
순결: 93.05%
배려: 96.74%
충성: 98.20%