Conceitos Básicos
文字列の期待編集距離の正確な値を効率的に計算することは困難であるが、上界の導出と Monte Carlo 推定によって、その値を良好な精度と信頼性で推定できることを示す。
Resumo
本論文では、文字列の期待編集距離の解析に取り組んでいる。
まず、文字列の期待編集距離 αk(n) が n → ∞ で収束する定数 αk の存在を示し、αk が計算可能な実数であることを証明している。具体的には、αk(n) - Q(n) ≤ αk ≤ αk(n) という不等式を導出し、Q(n) が n の関数として具体的に与えられることを示している。
しかし、αk(n) の正確な計算は実用的ではないため、Monte Carlo 推定の分析を行っている。McDiarmid の不等式を用いて、αk(n) を高い信頼性と良好な精度で推定する方法を提案している。例えば、n = 215 の場合、99.9% 信頼区間の幅が約 0.67 × 10^-3 となることを示している。
さらに、αk の下界 βk を解析的に特徴づける手法を開発し、limk→∞ βk = 1 であることを示している。k が数十以上の場合、β*k の計算は Monte Carlo 推定よりも高速であり、αk を良好な精度で評価できることを示している。
本論文の手法により、これまで報告されていた数値値の改善や、これまで報告されていなかった文字列長やアルファベットサイズに対する結果を得ている。
Estatísticas
文字列長 n が大きくなるにつれ、αk(n) - αk ≤ Q(n) = Θ(√(log n/n)) が成り立つ。
n = 215 の場合、99.9% 信頼区間の幅は約 0.67 × 10^-3 である。
limk→∞ β*k = 1 が成り立つ。