이 연구 논문은 대규모 언어 모델(LLM)의 추론 성능을 향상하는 데 중점을 둔 추론 시간 알고리즘에 대한 포괄적인 분석을 제공합니다. 저자들은 훈련 중에 연산 능력을 확장하는 것이 더 나은 결과로 이어진다는 것이 일반적인 접근 방식이지만, 추론 중에 연산 능력을 확장하는 것의 이점은 상대적으로 덜 주목받고 있다고 주장합니다.
논문에서는 먼저 토큰 레벨 생성 알고리즘(디코딩 알고리즘이라고도 함)을 자세히 살펴봅니다. 탐욕적 디코딩 및 빔 검색과 같은 고전적인 방법부터 핵심 샘플링 및 η-샘플링과 같은 최신 샘플링 알고리즘에 이르기까지 다양한 방법을 다룹니다. 이러한 방법은 일반적으로 한 번에 하나의 토큰을 샘플링하거나 토큰 레벨 검색 공간을 구성한 다음 출력을 선택하여 작동합니다. 저자들은 이러한 방법의 이론적 근거, 실질적인 영향, 공통점을 논의하고 통합된 프레임워크를 제공합니다.
다음으로, 논문에서는 부분 또는 전체 시퀀스에서 작동하고 LLM을 더 큰 생성 프로그램의 일부로 호출되는 블랙박스로 취급하는 메타 생성 알고리즘을 소개합니다. 메타 생성 알고리즘은 여러 모델 호출을 통해 생성에 사용되는 계산 리소스를 늘리거나, 검색 알고리즘을 사용하여 모델을 강화하거나, 외부 데이터 소스를 통합할 수 있습니다. 저자들은 체인형, 병렬형, 단계별, 개선형 메타 생성 알고리즘을 포함한 다양한 메타 생성 알고리즘을 분류하고 각 유형의 작동 방식과 이점을 설명합니다.
마지막으로 논문에서는 생성 속도를 높이고 토큰 비용을 줄이는 효율적인 생성 알고리즘의 중요성을 강조합니다. 모델 크기가 커짐에 따라 빠른 생성이 점점 더 어려워지고, 여러 번 모델을 호출하는 메타 생성 알고리즘에서는 비용이 중요한 요소가 됩니다. 저자들은 토큰 예산 최적화, 생성기 속도 향상, 메타 생성 알고리즘 속도 향상과 같은 효율적인 생성을 위한 다양한 기술을 논의합니다.
결론적으로 이 논문은 토큰 레벨 생성 알고리즘, 메타 생성 알고리즘, 효율적인 생성 기술이라는 세 가지 주요 주제를 통합적으로 다루면서 LLM의 추론 시간 알고리즘에 대한 귀중한 개요를 제공합니다. 전통적인 자연어 처리, 최신 LLM, 머신 러닝 시스템의 아이디어를 통합하고 고전적인 생성 알고리즘과 최신 메타 생성기를 모두 포함하는 수학적 형식을 제시합니다. 이러한 통합된 관점은 이 분야가 확장됨에 따라 특히 중요하며, 실무자와 연구자 모두에게 유용한 참고 자료가 될 것입니다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究