Core Concepts
주어진 문자열 집합에서 최장 공통 부분 수열 중 다양성이 높은 K개의 문자열을 효율적으로 찾는 문제를 다룬다.
Abstract
이 논문은 문자열 집합에서 최장 공통 부분 수열(LCS) 중 다양성이 높은 K개의 문자열을 찾는 문제를 다룬다. 다양성은 문자열 간 해밍 거리의 합(Sum diversity) 또는 최소 거리(Min diversity)로 정의된다.
주요 결과는 다음과 같다:
K가 상수일 때, 두 버전의 문제 모두 다항 시간에 해결할 수 있다.
K가 입력일 때, Max-Sum 버전의 문제는 PTAS(Polynomial Time Approximation Scheme)를 가진다.
K와 문자열 길이 r이 매개변수일 때, 두 버전의 문제 모두 FPT(Fixed-Parameter Tractable)이다.
K가 입력일 때, 두 버전의 문제 모두 NP-hard이다.
K가 매개변수일 때, 두 버전의 문제 모두 W[1]-hard이다.
이 결과들은 문자열 집합이 명시적으로 주어진 경우와 DAG로 암시적으로 주어진 경우 모두에 대해 증명되었다.
Stats
최장 공통 부분 수열의 길이는 min(|S1|, |S2|, ..., |Sm|)이다.
주어진 문자열 집합 S = {S1, S2, ..., Sm}에 대해 LCS(S)는 최대 O(ℓm) 크기의 DAG로 표현될 수 있다. 여기서 ℓ = max{|S1|, |S2|, ..., |Sm|}.
Quotes
"주어진 문자열 집합 S에 대해 LCS(S)는 최대 O(ℓm) 크기의 DAG로 표현될 수 있다."
"K가 상수일 때, 두 버전의 문제 모두 다항 시간에 해결할 수 있다."
"K가 입력일 때, Max-Sum 버전의 문제는 PTAS를 가진다."