핵심 개념
대규모 언어 모델의 생성 지연 시간을 줄이기 위한 Skeleton-of-Thought의 제안
초록
ICLR 2024 학회 논문으로 발표
대부분의 최첨단 언어 모델이 채택한 순차 디코딩 접근 방식으로 인한 높은 생성 지연 시간 감소를 목표로 함
Skeleton-of-Thought (SoT)은 LLMs를 안내하여 답변의 뼈대를 생성하고, 그 후 병렬 API 호출 또는 일괄 디코딩을 통해 각 뼈대 지점의 내용을 병렬로 완성함
SoT는 12개의 LLMs에서 상당한 속도 향상을 제공할 뿐만 아니라 몇 가지 질문 범주에서 답변 품질을 개선할 수 있음
SoT는 추론 효율성을 위한 데이터 중심 최적화의 초기 시도이며, 언어에서 답변 구조를 명시적으로 계획함으로써 높은 품질의 답변을 유도하는 잠재력을 보여줌
통계
FP16 weights of 175B GPT-3 take 350GB memory
Latency reduction from 22 seconds to 12 seconds with Claude
Latency reduction from 43 seconds to 16 seconds with Vicuna-33B V1.3
인용구
"SoT는 LLMs의 순차 디코딩이 필요하다는 일반적인 가정에 의문을 제기합니다."
"SoT는 병렬 디코딩을 통해 토큰을 병렬로 생성할 수 있도록 LLMs를 안내합니다."