핵심 개념
높이 제한 렘펠-지브 인코딩(LZHB)은 임의의 위치에 대한 빠른 접근을 지원하는 새로운 압축 표현 방식이다. 높이 제한 h를 가지는 LZHB 인코딩은 O(h) 시간 내에 임의의 위치에 접근할 수 있다. 또한 LZHB(c log n) 인코딩의 크기는 최소 런-길이 문법(RLSLP)의 크기 O(ˆgrl)보다 작으며, 일부 문자열 집합에서는 o(ˆgrl)이 성립한다.
초록
이 논문에서는 높이 제한 렘펠-지브(LZ) 인코딩이라는 새로운 압축 표현 방식을 소개한다. 이 방식은 임의의 위치에 대한 빠른 접근을 지원하는 것에 초점을 맞추고 있다.
높이 제한 LZ 인코딩(LZHB)은 LZ 파싱의 변형으로, 참조 높이가 h 이하로 제한된다. 이를 통해 O(h) 시간 내에 임의의 위치에 접근할 수 있다.
논문에서는 4가지 새로운 LZHB 인코딩 알고리즘을 제안한다:
LZHB1: 가장 긴 이전 요인의 가장 왼쪽 발생을 참조하며, 높이 제한을 만족하는 가장 긴 접두사를 선택
LZHB2: 가장 왼쪽 발생을 참조하며, 높이 제한을 만족하는 가장 긴 접두사를 선택
LZHB3: 높이 제한을 만족하는 가장 긴 접두사의 가장 왼쪽 발생을 참조
LZHB4: 주기 1 또는 높이 제한을 만족하는 가장 긴 접두사를 선택하는 변형된 LZ 인코딩
이 중 LZHB1과 LZHB2는 선형 시간, LZHB3와 LZHB4는 준선형 시간 내에 계산할 수 있다.
또한 논문에서는 LZHB 인코딩의 크기와 다른 반복성 척도 간의 관계를 분석한다. 특히 LZHB(c log n) 인코딩의 크기가 최소 런-길이 문법(RLSLP)의 크기 O(ˆgrl)보다 작으며, 일부 문자열 집합에서는 o(ˆgrl)이 성립함을 보였다.
실험 결과, LZHB 인코딩은 LZ77 인코딩에 비해 높이를 크게 줄일 수 있으면서도 공간 사용량을 크게 증가시키지 않는다는 것을 보여준다. 이는 LZ 기반 압축 데이터 구조에서 빠른 임의 접근이 필요한 경우에 유용할 것으로 기대된다.
통계
높이 제한 렘펠-지브 인코딩(LZHB)의 크기는 최소 런-길이 문법(RLSLP)의 크기 O(ˆgrl)보다 작다.
일부 문자열 집합에서는 LZHB(c log n)의 크기가 o(ˆgrl)이다.