핵심 개념
본 논문은 자연어 처리(NLP) 분야에서 설명 가능한 AI(XAI)가 인간-AI 협업 의사 결정에 실질적으로 도움이 되는지에 대한 의문을 제기하며, 실질적인 애플리케이션 기반 평가의 필요성과 함께 기존 연구의 한계점을 분석하고, 더욱 엄격하고 현실적인 평가 지표 및 프레임워크를 제시합니다.
초록
NLP 기반 인간-AI 의사 결정에서 설명 유용성 평가 분석
본 문서는 연구 논문 "On Evaluating Explanation Utility for Human-AI Decision Making in NLP" 에 대한 분석입니다.
본 연구는 자연어 처리(NLP) 분야에서 설명 가능한 AI(XAI)가 인간-AI 협업 의사 결정에 실질적으로 도움이 되는지에 대한 의문에서 출발합니다. 특히 기존의 XAI 연구들이 기술 개발과 대리 평가에 집중되어 실제 애플리케이션에서의 설명 유용성을 제대로 평가하지 못했다는 점을 지적합니다.
저자들은 설명 유용성을 평가하기 위한 기존 연구들을 '대리 평가', '인간 기반 평가', '애플리케이션 기반 평가' 로 분류하고, 각 유형의 한계점을 분석합니다. 또한 50개 이상의 NLP 설명 가능성 연구 데이터셋을 분석하여 실제 애플리케이션 기반 평가에 적합한 데이터셋을 선별하고, 선별 기준으로 5가지 조건(c1~c5)을 제시합니다. 선별된 데이터셋 중 하나인 ContractNLI를 사용하여 두 가지 인간-AI 협업 의사 결정 방식 (1) 인간이 최종 결정을 내리는 방식, (2) AI 모델이 특정 사례를 전문가에게 회부하는 방식) 에 대한 사용자 연구를 설계하고, 설명 유용성을 평가합니다.