Core Concepts
与えられた文字列集合から、ハミング距離に基づいて多様性の高い最長共通部分列のサブセットを効率的に見つける問題を解決する。
Abstract
本論文では、ハミング距離に基づいて多様性を定義した上で、最長共通部分列(LCS)の多様なサブセットを効率的に見つける問題を研究している。
具体的には以下の2つの問題を考える:
Max-Sum Diverse LCSs: 与えられた文字列集合Sから、K個の最長共通部分列を選び、それらの総ハミング距離の和を最大化する問題。
Max-Min Diverse LCSs: 与えられた文字列集合Sから、K個の最長共通部分列を選び、それらの最小ハミング距離を最大化する問題。
これらの問題に対して、以下の結果を示している:
K が定数の場合、両問題とも多項式時間で解くことができる。
K が入力の場合、Max-Sum Diverse LCSsはPTASを持つ。
両問題とも、K とr(文字列長)をパラメータとしてFPT。
K が入力の場合、両問題とも NP 困難。
また、これらの結果は、文字列集合が明示的に与えられる場合だけでなく、有向非巡回グラフ(DAG)で暗黙的に表現される場合にも成り立つことを示している。
Stats
与えられた2つの文字列X1 = ABABCDDEE、Y1 = ABCBAEEDD の最長共通部分列の長さは4である。
文字列集合Sの最長共通部分列の数は、文字列の長さnに対して指数的に増加し得る。
Quotes
"最長共通部分列(LCS)問題は、コンピュータサイエンスの基本的な問題の1つであり、50年以上にわたって理論と応用の両面で広く研究されてきた。"
"多様性最大化問題は、グラフや組合せ最適化問題において広く研究されてきたが、文字列問題における複雑性は未探索のままである。"