本稿では、商用DRAM-PIMを用いた初の近似最近傍探索(ANNS)フレームワークであるDRIM-ANNについて述べている。ANNSは、情報検索や検索拡張生成(RAG)などの重要なアプリケーションにおいて、大規模データセットにおける効率的な意味的類似性検索を可能にする、基礎的な構成要素となっている。しかし、ANNSは、高次元データの大容量化により、 massive storage を必要とすることが多く、計算量に対してI/O量の多いアルゴリズムであることが知られている。このことが、CPUではI/Oのボトルネックに、GPUではメモリ容量の限界につながっている。高帯域幅、大容量メモリ、そしてデータの近傍またはデータ内で効率的な計算を実行する能力を提供する、DRAMベースのProcessing-in-Memory(DRAM-PIM)アーキテクチャは、ANNSにとって有望なソリューションとなる。
本稿では、UPMEMのDRAM-PIMを用いたANNS向けに最適化されたANNSエンジンであるDRIM-ANNを提案する。まず、クラスタベースのANNSの計算パターンを特定し、IVF-PQとその派生形であるOPQ [16]やDPQ [25]をサポートするANNSエンジンを設計する。次に、UPMEMの高いメモリ帯域幅と比較的低い計算能力を活用するために、一般的なANNSエンジンで必要とされる計算量の多いユークリッド距離計算を、損失のないルックアップテーブル(LUT)に変換することで、計算能力の制限を補う。この変換されたANNSエンジンに基づいて、ターゲットとなるDRAM-PIMアーキテクチャ向けにANNS構成を最適化する、PIM対応のアルゴリズムチューニングフレームワークを提案する。具体的には、アーキテクチャを意識したチューニングをガイドするために、効果的なANNSパフォーマンスモデルを開発する。さらに、2,000個を超える並列DPUを搭載したUPMEMにANNSを展開する際に生じる、重大な負荷分散の課題にも取り組む。この課題に対処するために、静的なデータレイアウトの最適化と動的なランタイムリクエストスケジューリングを組み合わせた負荷分散戦略を開発し、それによって負荷分散の問題を軽減する。代表的なデータセットを用いた実験結果から、DRIM-ANNは、32スレッドCPUと比較して平均2.92倍の性能向上を達成することが示された。
DRIM-ANNは、以下の3つの主要な最適化技術から構成されている。
DRAM-PIMは、計算能力は低いものの、非常に優れた帯域幅を提供する。そこで、乗算をなくすために帯域幅をある程度犠牲にする。具体的には、計算量の多い乗算を、損失のないLUTに置き換える。基本的な考え方は、L2距離計算の乗算のオペランドは常に同じであるため、すべての可能な2乗結果の量は、オペランドのすべての可能な値の量と同じであり、8ビットまたは16ビットのオペランドの場合はそれぞれ128または64Kとなる。そこで、オフラインですべての可能な値を計算し、LUTに保存する。このLUTは、オンライン検索のためにすべてのDPUにブロードキャストされる。ビット幅の大きいオペランドの場合、LUT全体が許容できない場合は、オフラインでは小さい値の2乗結果のみを格納するLUTを構築する。乗算からLUT検索への変換により、計算量の多い演算がメモリアクセスに変換されるため、高帯域幅のPIMプラットフォームで高速化することができる。
乗算器レス変換を適用することで、DRAM-PIMから計算量の多い乗算が排除される。クラスタベースのANNSの性能と精度を両立させるパラメータはいくつかある。あるパラメータが性能と精度に与える影響は、他のパラメータによって補償することができる。例えば、候補となる近傍リストを縮小すると、TSフェーズの性能は向上するが、精度は低下する。これは、コードブックのエントリ数やアクセスするクラスタ数を増やすことで補償することができる。
特定のデータセットとPIMプラットフォームでは、N、Q、D、BxとBWx、PE、Fxが決まっている。したがって、設計空間探索(DSE)のタスクは、精度制約の下で最適な性能を達成する(K、P、C、M、CB)の組み合わせを見つけることである。
SIFT100MとDEEP100Mの代表的なデータセットを用いた実験結果から、DRIM-ANNは、32スレッドCPUと比較して平均2.92倍の性能向上を達成することが示された。また、DRIM-ANNはCPUベースラインと比較して1.63倍から2.42倍のエネルギー効率を達成し、その平均値は1.97倍である。
DRIM-ANNは、商用DRAM-PIMアーキテクチャを活用した、効率的でスケーラブルなANNSソリューションを提供する。乗算器レスANNS変換、PIM対応アルゴリズムチューニング、効果的な負荷分散戦略により、DRIM-ANNはCPUベースラインと比較して大幅な性能向上とエネルギー効率の向上を実現する。
לשפה אחרת
מתוכן המקור
arxiv.org
תובנות מפתח מזוקקות מ:
by Mingkai Chen... ב- arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15621.pdfשאלות מעמיקות