Grunnleggende konsepter
Write-ahead Lineageは、動的タスク依存関係を持つパイプラインクエリエンジン向けの新しい障害回復テクニックであり、低オーバーヘッドと高速な障害回復をサポートします。
Sammendrag
現代の分散型パイプラインクエリエンジンにおいて、Write-ahead LineageはSparkSQLよりも優れた性能を示す。
動的パイプライン実行は段階的な実行よりも優れたパフォーマンスを提供する。
静的タスク依存関係に比べて、動的タスク依存関係がより良い結果をもたらすことが示されている。
セグメント1: 抽象
パイプラインクエリエンジンにおける新しい障害回復技術であるWrite-ahead Lineageが紹介される。
Sparkのデータ並列回復と異なり、Quokkaではパイプライン並列回復が行われる。
セグメント2: 導入
データレークの台頭に伴い、分散型SQLクエリエンジンが採用されてきた背景が説明される。
第一世代の分散型クエリエンジン(MapReduceやSparkSQL)は柔軟性と効率的な起源ベースの障害耐性を提供してきたが、データ解析タスク向けに最適化されていなかった。
セグメント3: 有効な障害耐性戦略
パイプラインモデルであるQuokkaはKBサイズの起源情報だけを永続化し、高速な障害回復を可能にする。
Write-ahead Lineage戦略は他のシステム(TrinoやSparkSQL)よりも低オーバーヘッドで高速な障害回復を達成する。
Statistikk
KBサイズの起源情報だけが永続化されます。
QuokkaはTPC-Hベンチマークで競合製品よりも2倍高速です。
Sitater
"Lineage is the most beneficial for pipelined query engines."
"Spooling incurs significant overheads in normal execution."
"Fault tolerance’s first priority should be low overhead."