toplogo
Entrar

역방향 검색 없이 r-인덱싱하기


Conceitos Básicos
주어진 텍스트 T와 패턴 P에 대해, 역방향 검색 없이 O(log n) 시간 내에 P의 최대 정확 매치를 고확률로 찾을 수 있는 압축 인덱스를 제안한다.
Resumo

이 논문은 압축 인덱스를 이용하여 패턴 P와 텍스트 T의 최대 정확 매치(MEM)를 효율적으로 찾는 방법을 제안한다.

주요 내용은 다음과 같다:

  1. 역방향 검색에 의존하지 않고 MEM을 찾는 새로운 방법을 제안한다. 이를 위해 Lemma 1과 Corollary 2를 활용한다.
  2. 텍스트 T의 역 Burrows-Wheeler 변환의 런 개수 ¯r과 T의 직선 프로그램 크기 g를 이용하여 O(¯r + g) 공간 복잡도의 압축 인덱스를 구축한다.
  3. 이 압축 인덱스를 이용하면 패턴 P와 그 역의 부분 문자열 해시에 대한 상수 시간 접근이 가능하다.
  4. 이를 통해 P의 MEM을 고확률로 찾을 수 있으며, 각 MEM을 찾는 데 소요되는 시간은 T의 접미사 트리에서 내려가는 간선 수에 O(log n)을 곱한 것과 같다.

이 방법은 기존의 압축 접미사 트리 구조보다 단순하고 실용적일 것으로 기대된다.

edit_icon

Personalizar Resumo

edit_icon

Reescrever com IA

edit_icon

Gerar Citações

translate_icon

Traduzir Texto Original

visual_icon

Gerar Mapa Mental

visit_icon

Visitar Fonte

Estatísticas
텍스트 T의 길이는 n이다. 텍스트 T의 직선 프로그램 크기는 g이다. 텍스트 T의 역 Burrows-Wheeler 변환의 런 개수는 ¯r이다.
Citações
없음

Principais Insights Extraídos De

by Lore... às arxiv.org 03-19-2024

https://arxiv.org/pdf/2312.01359.pdf
r-indexing without backward searching

Perguntas Mais Profundas

패턴 P의 길이 m이 매우 크거나 작은 경우에도 이 방법이 효과적인가?

이 방법은 패턴 P의 길이 m이 매우 크거나 작은 경우에도 효과적입니다. 주어진 패턴 P에 대해 상수 시간 내에 접근하여 최대 정확 일치를 찾을 수 있으며, O(log n) 시간 내에 각 엣지를 내려가면서 suffix 트리에서 일치를 찾을 수 있습니다. 이는 패턴의 크기에 관계없이 일관된 성능을 제공하며, 효율적인 검색을 가능하게 합니다.

이 방법은 다른 압축 인덱스 구조와 어떤 성능 차이가 있는가?

이 방법은 다른 압축 인덱스 구조와 비교했을 때 몇 가지 중요한 차이가 있습니다. 먼저, r-indexing은 LF-mapping이나 역 검색에 의존하지 않고도 작동합니다. 또한, 쿼리 시간이 O(log n)으로 제한되어 있어 효율적인 검색을 보장합니다. 또한, r-indexing은 간단하고 실용적인 구조를 제공하며, 적은 수정으로도 실제 적용이 가능하다는 장점이 있습니다.

이 방법을 실제 대규모 데이터에 적용했을 때 어떤 실용적인 장단점이 있는가?

이 방법을 대규모 데이터에 적용할 때 몇 가지 실용적인 장단점이 있습니다. 먼저, r-indexing은 적은 공간을 사용하여 효율적으로 데이터를 색인화할 수 있습니다. 또한, 상수 시간 내에 패턴의 해시 값을 계산하여 검색 속도를 빠르게 유지할 수 있습니다. 그러나 데이터셋이 매우 커지면 일부 해시 충돌이 발생할 수 있으며, 이에 대한 처리가 필요할 수 있습니다. 또한, 구현 및 유지 관리 측면에서 추가적인 노력이 필요할 수 있지만, r-indexing의 간결한 구조와 효율성은 대규모 데이터셋에서 유용하게 활용될 수 있습니다.
0
star