Conceptos Básicos
データレイクハウスエコシステムの進化に伴い、クエリ最適化(QO)をサービス(QOaaS)として統合することで、エンジニアリング効率の向上、ワークロードレベルの最適化の集中化、マルチエンジン連携などの利点が得られる可能性がある。
Resumen
統合LakeHouseエコシステムにおけるサービスとしてのクエリ最適化(QOaaS)
本論文は、Microsoft Fabricのような統合LakeHouseエコシステムにおける、サービスとしてのクエリ最適化(QOaaS)の可能性について論じています。
従来のデータ管理システムは、サイロ化されたエンジンやサービスが個別に最適化されており、顧客の要求や規制への対応、エンジニアリング効率の向上という課題がありました。これらの課題を解決するために、オープンフォーマット、共有コンポーネントライブラリ、Microsoft Fabricのような統合データレイクエクスペリエンスの採用が進んでいます。
QOaaSは、QOを個別のサービスとして分離し、RPCを介して複数のエンジンと連携させることで、従来のライブラリ共有型アプローチ(CalciteやOrcaなど)を進化させたものです。
QOaaSの利点
エンジンのクエリ処理からQOを分離することで、独立したデプロイや実験が可能になる
インデックス/ビューの選択やML対応のQO機能強化など、ワークロードレベルの最適化を一元的に処理できる
エンジン間でコストを償却することで開発を加速できる
長期的には、各クエリサブプランが最適なエンジンで実行されるマルチエンジン連携が可能になる
QOaaSの課題
クエリセマンティクスとそのニュアンスをすべて捉えることができる、明確なクエリプラン形式を定義する必要がある
さまざまなエンジンに対して最適なプランを提供できる、柔軟なカーディナリティー推定、コストモデル、プラン検索メカニズムを提供する必要がある
異なるエンジン間、およびQOに必要なすべてのメタデータを伝達するためのリモートサービスとの間のインタラクションによるパフォーマンスへの影響に対処する必要がある