Die Studie untersucht die Optimierung von LLM-Abfragen in relationalen Workloads durch Reihenfolgeoptimierung und Deduplizierung. Es werden Techniken vorgestellt, um die Leistung von LLM-Abfragen zu verbessern, einschließlich der Maximierung des Cache-Trefferrates und der Reduzierung redundanter Anfragen. Die Implementierung in Apache Spark zeigt eine signifikante Verbesserung der Latenzzeit.
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Shu Liu,Asim... ב- arxiv.org 03-12-2024
https://arxiv.org/pdf/2403.05821.pdfשאלות מעמיקות