이 논문은 인간-AI 협력 의사결정 환경에서 AI 시스템이 인간의 편향을 보정하는 방법을 제안한다.
현재 AI 시스템은 개별 에이전트의 행동을 최적화하는 데 초점을 맞추고 있지만, 집단 지성의 미묘한 측면을 간과하고 있다. 집단 역학에서는 한 에이전트(AI 시스템)가 다른 에이전트(인간)의 편향과 오류를 보정해야 할 수 있다.
이 논문은 게임 이론과 강화학습 원리를 결합한 이론적 프레임워크를 제시하여, 에이전트 간 지속적인 학습 동학에서 기만적인 결과가 자연스럽게 발생할 수 있음을 보여준다. 또한 시뮬레이션 실험을 통해 편향된 인간 의사결정자와 상호작용하는 AI 에이전트의 보정 전략을 확인한다.
나아가 이 논문은 AI 시스템의 편향 보정이 윤리적으로 허용될 수 있는 조건을 제시한다. 이를 통해 인간의 자율성을 존중하면서도 편향을 완화하고 전체적인 윤리적 정렬을 향상시킬 수 있다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문