แนวคิดหลัก
대규모 언어 모델은 제한된 데이터로 도메인 특화 작업에 적용될 때 과도한 확신을 보이는 문제가 있다. 본 연구는 이를 해결하기 위해 백프로퍼게이션을 통해 저차원 가변 분포의 평균과 공분산을 동시에 학습하는 베이지안 저차원 적응 기법(BLoB)을 제안한다.
บทคัดย่อ
이 논문은 대규모 언어 모델(LLM)의 신뢰성과 책임성 향상을 위한 방법을 제안한다. LLM은 종종 사실적 근거와 동떨어진 과도한 확신을 보이는데, 이는 잠재적 위험을 초래할 수 있다. 따라서 응답의 불확실성을 정확하게 추정하는 것이 중요하다.
기존 연구는 주로 LLM의 내부 불확실성 추정 능력을 향상시키는 데 초점을 맞추었다. 그러나 이러한 방법은 도메인 특화 코퍼스, 사용자 선호도 또는 하위 작업에 적용될 때 여전히 한계가 있다. 이는 일반 지식의 재앙적 망각 때문이다. 또한 과도하게 매개변수화된 LLM은 제한된 하위 작업에 빠르게 과적합되어 과도한 확신을 보일 수 있다.
이 논문은 베이지안 방법론을 활용하여 LLM의 불확실성 추정 능력을 향상시키는 새로운 접근법인 BLoB를 제안한다. BLoB는 저차원 가변 분포의 평균과 공분산을 전체 미세 조정 과정에서 동시에 조정한다. 실험 결과는 BLoB가 일반화 및 불확실성 추정 측면에서 기존 방법보다 우수함을 보여준다.
สถิติ
대규모 언어 모델은 제한된 데이터로 도메인 특화 작업에 적용될 때 과도한 확신을 보인다.
기존 방법은 LLM의 내부 불확실성 추정 능력 향상에 초점을 맞추었지만, 도메인 특화 시 여전히 한계가 있다.
과도하게 매개변수화된 LLM은 제한된 하위 작업에 빠르게 과적합되어 과도한 확신을 보일 수 있다.
คำพูด
"Large Language Models (LLMs) often suffer from overconfidence during inference, particularly when adapted to downstream domain-specific tasks with limited data."
"Previous work addresses this issue by employing approximate Bayesian estimation after the LLMs are trained, enabling them to quantify uncertainty. However, such post-training approaches' performance is severely limited by the parameters learned during training."
"To address this challenge, we propose Bayesian Low-Rank Adaptation by Backpropagation (BLoB), a Bayesian Deep Learning framework for fine-tuning LLMs with LoRA. BLoB jointly estimates the low-rank variational distributions' mean and covariance throughout the entire fine-tuning stage via backpropagation."