본 연구 논문에서는 복잡한 작업에 대한 대규모 언어 모델(LLM)의 기능을 향상시키는 효과적인 패러다임으로 부상한 반복 개선에 대해 다룹니다. 기존의 방법은 주로 애플리케이션 또는 프롬프트 수준에서 반복 개선을 구현하며, 자기 회귀(AR) 모델링에 의존합니다. 하지만 AR 모델의 순차적 토큰 생성은 높은 추론 지연 시간을 초래할 수 있습니다.
이러한 문제를 해결하기 위해 본 논문에서는 계산 효율성을 유지하면서 LLM 아키텍처에 직접 반복 개선을 통합하는 **Context-Wise Order-Agnostic Language Modeling (COrAL)**을 제안합니다. COrAL은 관리 가능한 컨텍스트 창 내에서 여러 토큰 종속성을 모델링하여 생성 프로세스 중에 모델이 내부적으로 반복적인 개선을 수행할 수 있도록 합니다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Yuxi Xie, An... a las arxiv.org 10-15-2024
https://arxiv.org/pdf/2410.09675.pdfConsultas más profundas