核心概念
대형 언어 모델의 내부 표현을 편집하여 진실성 향상을 달성하는 NL-ITI 방법론을 제안하였다. NL-ITI는 기존 ITI 방법보다 성능이 크게 향상되었으며, 다양한 벤치마크에서 우수한 일반화 능력을 보였다.
要約
이 논문은 대형 언어 모델(LLM)의 진실성 향상을 위한 NL-ITI 방법론을 제안한다. NL-ITI는 기존 ITI 방법의 두 가지 측면을 개선하였다:
- 프로빙 모델의 용량을 늘려 진실한 지식을 포함하고 있는 주목 헤드를 더 효과적으로 식별하였다.
- 개입 벡터의 토큰 문맥을 확장하여 진실한 지식이 최종 토큰뿐만 아니라 더 넓은 문맥에 분포되어 있다는 가설을 반영하였다.
실험 결과, NL-ITI는 TruthfulQA 벤치마크에서 약 14% MC1 지표 향상을 보였다. 또한 MMLU, OpenBookQA, ARC 등 다른 벤치마크에서도 ITI 대비 우수한 일반화 성능을 보였다. 특히 비즈니스 윤리 분야에서 큰 성능 향상을 보였다.
NL-ITI는 ITI 대비 동일한 수준의 모델 행동 변화(KL 발산)에서도 더 나은 MC 정확도를 달성하였다. 이는 NL-ITI가 LLM의 일반화 능력을 더 잘 유지하면서도 성능을 향상시킬 수 있음을 보여준다.
統計
LLaMA-2-7B 모델의 TruthfulQA 성능은 MC1 33.54%, MC2 50.34%이다.
ITI 방법을 적용하면 MC1 36.35%, MC2 54.72%로 향상된다.
NL-ITI 방법을 적용하면 MC1 50.19%, MC2 67.73%로 크게 향상된다.
NL-ITI는 ARC 벤치마크에서 MC1 44.27%, MMLU에서 MC1 40.31%를 달성하여 ITI 대비 우수한 일반화 성능을 보였다.
引用
"대형 언어 모델(LLM)은 거짓 정보를 반환하는 경향이 있으며, 이는 AI 분야의 주요 과제 중 하나이다."
"NL-ITI는 TruthfulQA 벤치마크에서 약 14% MC1 지표 향상을 보였다."
"NL-ITI는 MMLU, OpenBookQA, ARC 등 다른 벤치마크에서도 ITI 대비 우수한 일반화 성능을 보였다."