이 논문은 대형 언어 모델(LLM)의 진실성 향상을 위한 NL-ITI 방법론을 제안한다. NL-ITI는 기존 ITI 방법의 두 가지 측면을 개선하였다:
실험 결과, NL-ITI는 TruthfulQA 벤치마크에서 약 14% MC1 지표 향상을 보였다. 또한 MMLU, OpenBookQA, ARC 등 다른 벤치마크에서도 ITI 대비 우수한 일반화 성능을 보였다. 특히 비즈니스 윤리 분야에서 큰 성능 향상을 보였다.
NL-ITI는 ITI 대비 동일한 수준의 모델 행동 변화(KL 발산)에서도 더 나은 MC 정확도를 달성하였다. 이는 NL-ITI가 LLM의 일반화 능력을 더 잘 유지하면서도 성능을 향상시킬 수 있음을 보여준다.
Sang ngôn ngữ khác
từ nội dung nguồn
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Jakub Hoscil... lúc arxiv.org 03-28-2024
https://arxiv.org/pdf/2403.18680.pdfYêu cầu sâu hơn