이 연구는 문자열 순수 빈도(net frequency, NF)의 새로운 특성을 소개하고, 이를 활용하여 효율적인 NF 계산 알고리즘을 제안한다.
먼저 NF의 새로운 특성을 정의하고, 이를 통해 Fibonacci 단어에서 양의 NF를 가지는 문자열을 식별한다. 이를 바탕으로 두 가지 문제를 해결한다:
single-nf: 주어진 문자열의 NF를 계산하는 O(m + σ) 시간 복잡도의 알고리즘을 제안한다. 여기서 m은 문자열 길이, σ는 알파벳 크기이다.
all-nf: 주어진 텍스트에서 양의 NF를 가지는 모든 문자열을 보고하는 알고리즘을 제안한다. all-nf-report 버전은 O(n) 시간 복잡도, all-nf-extract 버전은 O(n log δ) 시간 복잡도를 가진다. 여기서 n은 텍스트 길이, δ는 반복성 척도이다.
실험 결과, 제안된 알고리즘이 기존 방법에 비해 약 100배 빠른 것으로 나타났다. 이를 통해 NF가 중요 문자열 식별에 유용한 방법이며, 본 연구에서 제안한 효율적인 계산 방법이 이를 뒷받침함을 보여준다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究