본 연구는 도덕적 추론 능력을 평가하기 위한 체계적인 방법을 제안한다. 연구진은 인과 관계 그래프를 활용하여 도덕적 딜레마의 핵심 요소를 포착하고, 이를 언어 모델을 통해 다양한 시나리오로 생성하는 프레임워크를 개발했다.
구체적으로, 연구진은 도덕적 딜레마에 영향을 미치는 세 가지 핵심 요소를 선별했다: 1) 결과에 대한 수단 vs 부작용, 2) 해로운 결과의 회피 가능성 vs 불가피성, 3) 행동 vs 부작위. 이를 바탕으로 8가지 조건의 시나리오를 생성했다.
연구진은 이렇게 생성된 시나리오를 바탕으로 인간 참여자와 GPT-4, Claude-2 언어 모델을 대상으로 도덕적 허용 가능성과 의도에 대한 판단을 수집했다. 그 결과, 해로운 결과가 수단이 되는 경우와 회피 가능한 경우에 참여자와 언어 모델 모두 더 낮은 허용 가능성과 더 높은 의도 점수를 보였다. 그러나 행동 vs 부작위에 따른 차이는 뚜렷하지 않았다.
연구진은 이러한 결과를 바탕으로 언어 모델의 도덕적 추론 능력을 평가하고 개선하기 위한 방향을 제시했다. 특히 언어 모델이 인과 관계 추론에 어려움을 겪는 점을 지적하며, 이를 보완하기 위한 방법론적 개선이 필요함을 강조했다.
เป็นภาษาอื่น
จากเนื้อหาต้นฉบับ
arxiv.org
สอบถามเพิ่มเติม