Основные понятия
COrAL은 순서 독립적 모델링과 디노이징 기술을 결합하여 반복적인 개선을 통해 효율성과 성능을 향상시킨 언어 모델링 프레임워크입니다.
Аннотация
COrAL: 효율적인 반복 개선을 위한 순서 독립적 언어 모델링
본 연구 논문에서는 복잡한 작업에 대한 대규모 언어 모델(LLM)의 기능을 향상시키는 효과적인 패러다임으로 부상한 반복 개선에 대해 다룹니다. 기존의 방법은 주로 애플리케이션 또는 프롬프트 수준에서 반복 개선을 구현하며, 자기 회귀(AR) 모델링에 의존합니다. 하지만 AR 모델의 순차적 토큰 생성은 높은 추론 지연 시간을 초래할 수 있습니다.
이러한 문제를 해결하기 위해 본 논문에서는 계산 효율성을 유지하면서 LLM 아키텍처에 직접 반복 개선을 통합하는 **Context-Wise Order-Agnostic Language Modeling (COrAL)**을 제안합니다. COrAL은 관리 가능한 컨텍스트 창 내에서 여러 토큰 종속성을 모델링하여 생성 프로세스 중에 모델이 내부적으로 반복적인 개선을 수행할 수 있도록 합니다.
순서 독립적 모델링: COrAL은 컨텍스트 창 내에서 다양한 종속성을 순서에 관계없이 모델링하여 복잡한 토큰 관계를 효과적으로 포착합니다.
슬라이딩 블록 방식의 순서 독립적 디코딩: 컨텍스트 창 내에서 다중 토큰 순방향 예측 및 역방향 재구성을 수행하여 순차적 생성의 높은 추론 비용 없이 다양한 종속성을 효과적으로 포착합니다.
타겟 인식 쿼리 표현: Transformer의 마지막 레이어에 일반화된 Rotary Position Embedding (RoPE)을 적용하여 효과적인 순서 독립적 생성 및 반복 개선에 필수적인 타겟 인식 표현을 유지합니다.
추론 작업에 대한 실험 결과, COrAL은 성능과 추론 속도를 모두 향상시키는 것으로 나타났습니다. 특히 GSM8K에서 4.6%, LogiQA에서 4.0%의 절대 정확도 향상을 달성했으며, 넥스트 토큰 기준선에 비해 최대 3.9배의 추론 속도 향상을 보였습니다.