核心概念
本文提出了一種基於 Burrows-Wheeler 變換的笛卡爾樹匹配索引 (cBWT 索引) 的擴展算法,並設計了空間複雜度更低的構建算法。
摘要
論文概述
本論文旨在解決笛卡爾樹匹配中的兩個問題:
- 高效構建索引: 現有的基於 Burrows-Wheeler 變換的笛卡爾樹匹配索引 [Kim and Cho, CPM’21] 佔用近似簡潔的空間,並可以在線性時間內計算出與模式笛卡爾樹匹配的子串數量。然而,該索引的構建需要基於指針的數據結構,其空間複雜度較高。
- 多個循環文本索引: 現有索引只能部分解決多文本索引問題,難以檢測模式是否是其中一個輸入文本的重複,而這在索引可能重複的旋律主題時非常重要。
主要貢獻
- 緊湊空間構建算法: 本文提出了一種時間複雜度為 O(n lg σ lg n / lg lg n) 且空間複雜度為 O(n lg σ) 的 cBWT 索引構建算法,其中 n 是所有待索引文本的總長度。該算法採用緊湊空間,解決了先前基於指針的構建算法的空間瓶頸。
- 多個循環文本索引擴展: 本文利用擴展 Burrows-Wheeler 變換的技術,將 cBWT 索引擴展到多個循環文本索引,並保持了相同的時間和空間複雜度。這種擴展允許在不考慮偏移和縮放的情況下,查找上述應用中常見的重複主題。
- 動態索引變體: 本文還提出了一種動態 cBWT 索引變體,允許以對數減速和緊湊空間增量添加文本。
論文結構
論文首先介紹了笛卡爾樹匹配和現有索引的背景,然後詳細描述了 cBWT 索引的定義、構建算法和擴展方法。論文還通過實驗評估了算法的性能,並與現有方法進行了比較。
總結
本文提出的 cBWT 索引及其構建算法為笛卡爾樹匹配提供了一種高效且空間緊湊的解決方案,並通過擴展到多個循環文本索引,進一步提升了其在實際應用中的價值。