Core Concepts
대규모 언어 모델이 생성하는 자기 설명은 인간에게 논리적이고 설득력 있게 보일 수 있지만, 실제 모델의 추론 과정을 정확하게 반영하지 않을 수 있다. 이는 모델의 신뢰성과 투명성에 대한 우려를 야기한다.
Abstract
이 논문은 대규모 언어 모델(LLM)이 생성하는 자기 설명(self-explanation)의 충실성과 개연성 사이의 딜레마를 다룹니다.
자기 설명은 LLM의 중간 추론 과정을 인간이 이해할 수 있는 언어로 설명하는 기능입니다. 이는 LLM의 행동을 이해하고 신뢰할 수 있게 하는 데 중요합니다.
그러나 LLM이 생성하는 자기 설명은 인간에게 논리적이고 설득력 있게 보일 수 있지만(개연성), 실제 모델의 추론 과정을 정확하게 반영하지 않을 수 있습니다(충실성). 이는 LLM의 신뢰성과 투명성에 대한 우려를 야기합니다.
논문은 이러한 개연성과 충실성 사이의 딜레마를 다음과 같이 설명합니다:
개연성: LLM은 인간의 추론 과정을 잘 모방할 수 있어 설득력 있는 설명을 생성할 수 있습니다. 하지만 이는 실제 모델의 내부 추론 과정을 반영하지 않을 수 있습니다.
충실성: 설명이 모델의 실제 추론 과정을 정확하게 반영하는 것이 중요하지만, 이는 인간에게 직관적이지 않을 수 있습니다.
이 딜레마는 특히 의료, 법률, 금융 등 고위험 분야에서 심각한 문제를 야기할 수 있습니다. 따라서 저자들은 LLM 설명의 충실성과 개연성을 동시에 높이기 위한 연구가 필요하다고 강조합니다.