이 논문은 대규모 언어 모델(LLM)의 성능과 비용 간의 트레이드오프 문제를 해결하기 위해 Routoo 아키텍처를 제안합니다. Routoo는 두 가지 핵심 구성 요소로 이루어져 있습니다:
성능 예측기: 이 모듈은 다양한 LLM의 성능을 실행하지 않고도 예측할 수 있는 경량 LLM입니다. 이를 통해 실행 비용을 크게 줄일 수 있습니다.
비용 인식 선택기: 이 모듈은 성능 예측기의 예측 결과와 비용, 지연 시간 등의 제약 조건을 사용하여 가장 적합한 모델을 선택합니다. 이를 통해 주어진 품질 요구 사항에 대해 추론 비용을 크게 줄일 수 있습니다.
또한 Routoo는 다양한 LLM을 효과적으로 활용하기 위해 유니버스 생성기 모듈을 포함합니다. 이 모듈은 사용 가능한 LLM 중에서 상호 보완적인 모델 집합을 선택합니다.
Routoo를 MMLU 벤치마크에 적용한 결과, Mixtral 8x7b 모델과 동등한 성능을 보이면서도 추론 비용을 3분의 1로 줄일 수 있었습니다. 또한 비용 예산을 늘리면 Mixtral 모델을 5% 이상 능가하는 성능을 달성할 수 있었습니다. GPT4를 통합한 Routoo(mix) 모델은 GPT4와 유사한 성능을 보이면서도 비용을 절반으로 줄일 수 있었고, 비용을 25% 줄여도 GPT4를 능가할 수 있었습니다.
이러한 결과는 Routoo가 성능을 저하시키지 않고도 추론 비용을 크게 줄일 수 있으며, 다양한 LLM의 역량을 활용하여 새로운 최첨단 성과를 달성할 수 있음을 보여줍니다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문