이 논문은 문자열 간 편집 거리의 평균값 αk와 그 수렴 속도에 대해 분석한다.
먼저 편집 거리 문제를 [LMT12]의 프레임워크에 맞추어 분석하여, αk가 계산 가능한 실수라는 것을 보인다. 하지만 αk(n)을 정확히 계산하는 알고리즘은 실용적이지 않다.
이에 따라 몬테카를로 방식을 통해 αk(n)을 추정하는 방법을 제안한다. McDiarmid 부등식을 활용하여 추정치의 신뢰구간을 분석하고, 이를 통해 αk에 대한 신뢰구간도 도출한다. 실험 결과, 문자열 길이 n=215에 대해 99.9% 신뢰수준에서 폭 약 10-2의 신뢰구간을 얻을 수 있음을 보인다.
또한 편집 거리 스크립트에 대한 조합론적 분석을 통해 αk의 효율적으로 계산 가능한 하한 βk를 도출한다. 이 하한은 k가 증가함에 따라 1에 수렴하므로, k가 충분히 크면 βk와 1-1/k 사이의 구간이 αk를 포함하게 된다.
Na inny język
z treści źródłowej
arxiv.org
Głębsze pytania