核心概念
대규모 언어 모델의 제약된 텍스트 생성 능력을 평가하고, 이해하며, 개선하는 방법을 제시한다.
摘要
이 연구는 대규모 언어 모델(LLM)의 제약된 텍스트 생성 능력을 조사한다. 저자들은 어휘, 구조, 관계 등 다양한 유형의 제약을 정의하고, 이를 기반으로 공정한 평가를 위한 벤치마크를 제시한다. 실험 결과를 통해 LLM의 제약된 텍스트 생성 능력과 한계를 분석하고, 이를 이해하기 위해 일관성, 은닉 상태 프로빙, 주목도 점수 계산 등의 방법을 활용한다. 마지막으로 주목도 재조정이라는 간단한 방법을 제안하여 공개 소스 LLM의 제약된 텍스트 생성 성능을 향상시킨다.
統計資料
제약된 텍스트 생성 작업에서 GPT-4가 97.26%의 정확도와 99.33%의 단어 커버리지를 달성하여 가장 우수한 성능을 보였다.
문장 위치 지정 능력에서 GPT-4는 72.40%의 정확도를 보여 다른 LLM보다 크게 앞섰다.
관계 제약 작업에서 GPT-4는 49.48%의 정확도를 보였고, LLaMA2-13B-Chat은 35.46%로 그 뒤를 이었다.
引述
"최근 자연어 생성(NLG) 및 대규모 언어 모델(LLM) 분야의 발전으로 다양한 작업에서 유창한 텍스트 생성이 가능해졌다. 그러나 LLM의 불투명성으로 인해 복잡한 제약을 신경망 텍스트 생성에 통합하는 것은 여전히 어려운 과제이다."
"본 연구는 LLM의 제약된 텍스트 생성 능력을 평가, 이해 및 개선하는 것을 목표로 한다."