効率的な計算のための文字列ネット頻度の新しい性質の活用
大規模なテキストにおいて、一般的で他の文字列と区別される重要な文字列を効率的に特定することは、テキスト圧縮やトークン化などの多くのアプリケーションにとって価値がある。文字列ネット頻度は、このような重要な文字列を特定する有力な手段であるが、これまでその効率的な計算方法は明らかにされていなかった。本研究では、文字列ネット頻度の新しい特性を明らかにし、これに基づいて単一の文字列のネット頻度を O(m + σ) 時間で、全ての正のネット頻度を持つ文字列を O(n) 時間で報告する効率的なアルゴリズムを提案する。