Konsep Inti
자연어 생성 모델의 불확실성을 정량화하고 보정하는 데 있어 작업 특성을 고려한 유틸리티 기반 접근 방식의 중요성과 효과를 강조합니다.
Abstrak
자연어 생성에서 주관적 불확실성 정량화 및 보정에 관하여
본 논문은 자유 형식 자연어 생성(NLG)에서 언어 모델(LM)의 불확실성 정량화(UQ)에 대한 연구를 다룹니다. 특히, 생성된 응답과 가상의 실제 응답을 비교하는 유사도 측정을 기반으로 유틸리티 함수를 특징짓는 베이지안 결정 이론적 관점을 제시합니다.
기존의 자유 형식 NLG에서의 UQ는 작업과 관련 없는 측면의 변동을 적절히 처리하지 못하여 모델의 실제 성능을 제대로 반영하지 못하는 문제점이 있었습니다. 예를 들어, 토큰 수준 엔트로피와 같은 표준 UQ 측정값은 작업과 관련 없는 측면의 변동에 의해 지배되어 모델의 실제 성능에 대한 정보를 제대로 제공하지 못할 수 있습니다. 또한, 의미적 동등성을 기반으로 하는 기존의 "의미적 불확실성" 접근 방식은 스타일 전이 작업이나 모델이 정답과 여러 독립적인 근거를 확실하게 알고 있지만 어떤 근거를 포함할지에 대한 "불확실성"이 존재하는 QA 작업과 같은 특정 작업에 대해서는 유효하지 않거나 불완전한 특성화를 제공할 수 있습니다.
본 논문에서는 베이지안 결정 이론적 관점에서 위에서 언급한 문제들을 해결하는 보다 일반적인 프레임워크를 제시합니다.
유틸리티 기반 설정
핵심 아이디어는 모델이 생성한 응답 y'과 (실제 또는 가상의) 정답 y 사이의 유사도 측정 S(y', y; I)를 통해 유틸리티 함수를 정량화하는 것입니다. 이러한 설정은 의미적 동등성을 넘어 다양한 작업에 적용 가능하며, 몇 가지 예시를 통해 설명됩니다.
의미적 동등성: S를 entailment를 사용하여 정의하면 의미적 동등성에 기반한 이전 연구를 일반화할 수 있습니다.
전통적인 구조화된 예측 작업: 기계 번역의 경우 어휘 점수(lexical score)와 같이 S를 쉽게 선택할 수 있습니다.
LM을 사용한 평가: 퓨샷 데모 또는 자세한 지침을 기반으로 S를 계산하는 LM을 사용하여 평가를 구현할 수 있는 모든 작업에 적용 가능합니다.
작업 특성을 고려한 주관적 불확실성 측정
LM에 의해 정의된 주관적 불확실성을 정량화하기 위해, 생성된 응답 y가 항상 LM의 예측 분포 pM 하에서 기대 유틸리티를 최대화하도록 선택된다고 가정합니다. 이는 NLG에서 흔히 볼 수 있는 가정이며, 고성능 LM이 베이지안 추론을 근사할 수 있다는 믿음에 의해 뒷받침됩니다. 이러한 가정 하에서, 주관적 불확실성은 베이즈 위험(Bayes risk) 또는 최대 달성 가능 기대 유틸리티로 자연스럽게 특징지어지며, 여기서 행동 공간은 사용 가능한 후보 생성으로 정의됩니다.
작업 특성을 고려한 보정 평가
주관적 불확실성 측정값이 유용하려면 LM이 합리적으로 보정되어야 합니다. 본 논문에서는 작업과 관련된 차이점과 관련 없는 차이점을 구분하고 이를 공식적으로 특성화하는 데 어려움을 겪는 일반적인 NLG 작업에서 보정을 평가하는 방법을 제시합니다. 핵심 아이디어는 LM의 예측 유틸리티가 실제 발생한 유틸리티의 기대값과 일치하는 경우 LM이 보정된 불확실성 개념을 가지고 있다고 간주하는 것입니다. 이를 통해 신뢰도 다이어그램(reliability diagram)과 일반화된 예상 보정 오류(expected calibration error, ECE)를 통해 LM의 보정을 정량화할 수 있습니다.
인컨텍스트 학습에서의 인식론적 불확실성
베이지안 모델링을 사용하면 예측 불확실성을 인식론적 불확실성과 임의적 불확실성으로 분해할 수 있습니다. 인식론적 불확실성은 감소 가능한 불확실성의 비율을 나타내며 데이터 수집을 안내하거나 예측을 개선하기 위해 추가 정보를 가장 효과적으로 사용할 수 있는 시기를 나타낼 수 있습니다. 본 논문에서는 인컨텍스트 학습(ICL)에서 작업 특성을 고려한 인식론적 불확실성을 측정하는 방법을 제시합니다. 이 방법은 베이지안 모델링에 대한 누락된 데이터 관점과 인식론적 불확실성과 초과 위험(excess risk) 간의 연결을 기반으로 합니다.