핵심 개념
LLM 임베딩을 사용하여 SQL 쿼리를 분석하면 적은 양의 데이터만으로도 기존 쿼리 최적화 기법보다 우수한 성능을 보이는 쿼리 플랜 힌트를 생성할 수 있다.
초록
LLM을 활용한 쿼리 최적화: 놀라운 효과와 향후 연구 방향
본 연구 논문에서는 대규모 언어 모델(LLM)을 사용하여 쿼리 최적화를 수행하는 LLMSteer 시스템의 초기 연구 결과를 소개합니다. 일반적으로 쿼리 최적화에는 복잡한 머신러닝 기법이 사용되지만, 놀랍게도 LLM 임베딩만으로도 쿼리 최적화에 유용한 정보를 추출할 수 있음을 확인했습니다.
본 연구는 LLM을 사용하여 적은 양의 라벨링된 데이터만으로도 효과적인 쿼리 힌트를 생성할 수 있는지, 그리고 LLMSteer 시스템이 SQL 쿼리의 비의미적 구문 변화에 얼마나 강건한지를 규명하는 것을 목표로 합니다.
LLMSteer는 OpenAI의 text-embedding-3-large 모델을 사용하여 SQL 쿼리를 임베딩하고, 차원 축소를 위해 주성분 분석(PCA)을 적용합니다. 이후 SVM 분류 모델을 사용하여 쿼리에 적합한 힌트를 예측합니다. 본 연구에서는 Join Order Benchmark (JOB) 및 Cardinality Estimation Benchmark (CEB)에서 추출한 3246개의 SQL 쿼리를 사용하여 시스템을 평가했습니다. 각 쿼리에 대해 48개의 힌트 세트를 적용하여 PostgreSQL 16.1에서 실행하고 평균 지연 시간을 측정했습니다.