本論文では、GraphArと呼ばれる、データレイクにおけるグラフデータの効率的な管理スキームを提案している。
データレイクは、さまざまなタイプのデータを格納・分析するための重要なインフラストラクチャとなっている。一方で、従来のカラム型ストレージ形式であるParquetやORCは、ラベル付きプロパティグラフ(LPG)モデルに基づくグラフデータを効率的に管理することができない。
GraphArは、Parquetを基盤としつつ、LPGのセマンティクスを正確に表現し、ネイバー取得やラベルフィルタリングなどのグラフ固有の操作を高速化するための革新的な手法を導入している。
具体的には以下のような取り組みを行っている:
Parquetとの互換性を確保しつつ、LPGのスキーマメタデータを表現するためのYAMLファイルを導入し、階層的なデータレイアウトを設計している。これにより、LPGのセマンティクスを完全に表現しつつ、既存のデータレイク ecosystemとの統合を実現している。
ネイバー取得の高速化のために、エッジをソート済みのテーブルとして格納し、CSR(Compressed Sparse Row)やCSC(Compressed Sparse Column)のような表現を活用している。さらに、Parquetのデルタエンコーディングと、BMIやSIMDを活用した独自のデコーディングアルゴリズムを導入している。
ラベルフィルタリングの高速化のために、ラベルを効率的に表現・圧縮するためのRLEベースの手法を開発している。さらに、複雑な条件式に対応するための高度な手法も提案している。
これらの取り組みにより、GraphArは従来のParquetやAcero ベースの実装と比較して、ネイバー取得で平均4452倍、ラベルフィルタリングで14.8倍、エンドツーエンドのワークロードで29.5倍の高速化を実現している。これらの成果は、データレイクにおけるグラフデータ管理の効率化に大きな可能性を示している。
Til et andet sprog
fra kildeindhold
arxiv.org
Vigtigste indsigter udtrukket fra
by Xue Li, Weib... kl. arxiv.org 09-26-2024
https://arxiv.org/pdf/2312.09577.pdfDybere Forespørgsler