대규모 언어 모델의 복잡한 문제 해결 및 견고성, 해석 가능성을 높이기 위해 정확한 단계별 추론 생성이 필수적이다. 그러나 다양한 추론 접근법을 체계적으로 분석하는 것은 어려운 과제이다. 이 논문은 자동화된 추론 체인 평가 방법과 통일된 추론 알고리즘 구현을 제안하여 이 문제를 해결하고자 한다.
대규모 언어 모델의 다중 선택형 문제 해결 성능을 향상시키기 위해 문제의 난이도에 따라 데이터를 분할하고 각각 다른 접근법을 적용하는 분할 및 정복 전략을 제안한다.
DEFT는 트리 구조의 KV 캐시와 부분 결과(QK⊤, Softmax)에 대한 IO 최적화를 통해 대규모 언어 모델 추론의 효율성을 크게 향상시킨다.
대규모 언어 모델 추론에서 KV 캐시의 메모리 사용량을 2배 줄이면서도 모델 정확도를 유지할 수 있는 새로운 접근법을 제안한다.