이 연구는 대형 언어 모델의 예측에 대한 인간 생성 설명과 기계 생성 설명의 효과를 비교하였다.
먼저 40명의 참여자로부터 156개의 인간 생성 설명(텍스트 설명 및 주요 단어 강조)을 수집하였다. 이를 분석한 결과, 인간 설명은 주로 텍스트 직접 인용 또는 요약이었으며, 일부는 오해에 기반한 설명이거나 품질이 낮은 설명이었다. 인간 생성 설명과 기계 생성 설명(적분 그래디언트, 보수적 LRP, ChatGPT) 간 중복도는 21%에 불과했다.
이후 136명의 참여자를 대상으로 한 실험에서, 참여자들은 다양한 인간 및 기계 생성 설명을 평가하였다. 연구 결과, AI 예측의 정확성이 성과, 시간, 품질, 유용성, 정신적 노력 등 모든 측면에 강한 영향을 미쳤다. 기계 생성 주요 단어 강조는 인간 생성 주요 단어 강조보다 유용성이 낮게 평가되었다. 참여자들은 ChatGPT 설명보다 텍스트 직접 인용을 더 신뢰했다. 또한 설명에 대한 만족도, AI에 대한 신뢰도, 설명의 유용성이 높을수록 성과가 낮게 나타났다.
이러한 결과는 오류가 있는 AI 예측에 대한 "좋은" 설명이 사용자의 과도한 신뢰를 유발하여 오히려 성과를 저하시킬 수 있음을 시사한다. 또한 참여자들이 주요 단어 강조 자체를 관련성의 휴리스틱으로 사용할 수 있음을 보여준다. 이는 설명 확증 편향의 위험을 나타낸다.
To Another Language
from source content
arxiv.org
Önemli Bilgiler Şuradan Elde Edildi
by Marvin Pafla... : arxiv.org 04-12-2024
https://arxiv.org/pdf/2404.07725.pdfDaha Derin Sorular