Główne pojęcia
주어진 텍스트 T와 패턴 P에 대해, 역방향 검색 없이 O(log n) 시간 내에 P의 최대 정확 매치를 고확률로 찾을 수 있는 압축 인덱스를 제안한다.
Streszczenie
이 논문은 압축 인덱스를 이용하여 패턴 P와 텍스트 T의 최대 정확 매치(MEM)를 효율적으로 찾는 방법을 제안한다.
주요 내용은 다음과 같다:
- 역방향 검색에 의존하지 않고 MEM을 찾는 새로운 방법을 제안한다. 이를 위해 Lemma 1과 Corollary 2를 활용한다.
- 텍스트 T의 역 Burrows-Wheeler 변환의 런 개수 ¯r과 T의 직선 프로그램 크기 g를 이용하여 O(¯r + g) 공간 복잡도의 압축 인덱스를 구축한다.
- 이 압축 인덱스를 이용하면 패턴 P와 그 역의 부분 문자열 해시에 대한 상수 시간 접근이 가능하다.
- 이를 통해 P의 MEM을 고확률로 찾을 수 있으며, 각 MEM을 찾는 데 소요되는 시간은 T의 접미사 트리에서 내려가는 간선 수에 O(log n)을 곱한 것과 같다.
이 방법은 기존의 압축 접미사 트리 구조보다 단순하고 실용적일 것으로 기대된다.
Statystyki
텍스트 T의 길이는 n이다.
텍스트 T의 직선 프로그램 크기는 g이다.
텍스트 T의 역 Burrows-Wheeler 변환의 런 개수는 ¯r이다.