핵심 개념
본 논문에서는 다양한 문자열 유사성 측정값(특히 편집 거리와 인델 거리) 간의 관계를 조사하고, 문자열을 더 작은 알파벳(이진 알파벳 포함)으로 임베딩하면서 거리를 보존하는 방법을 중점적으로 다룹니다.
초록
다양한 알파벳 크기에서 편집 거리 및 인델 거리 간의 스케일링된 등거리 임베딩 분석
본 연구 논문에서는 문자열 유사성, 특히 편집 거리와 인델 거리라는 두 가지 주요 측정값을 심층적으로 분석합니다. 저자들은 이러한 측정값 간의 관계를 탐구하고 한 측정값에 대한 결과를 다른 측정값에 적용하기 위한 표준화된 접근 방식의 존재 여부를 조사합니다.
본 논문의 주요 연구 질문은 다음과 같습니다.
편집 거리와 인델 거리 간에 등거리 임베딩이 존재하는가? 효율적으로 계산할 수 있는가?
임의의 알파벳에 대한 편집 거리와 이진 알파벳에 대한 편집 거리 간에 등거리 임베딩이 존재하는가? 효율적으로 계산할 수 있는가?
저자들은 입력 메트릭 공간(M, d) 내의 점을 출력 메트릭 공간(M', d') 내의 점으로 변환하는 여러 매핑을 도입하여 원래 공간의 모든 점 쌍 사이의 거리가 출력 쌍에서 (대략적으로) 보존되도록 합니다.
핵심 기법은 다음과 같습니다.
스케일링된 등거리 임베딩: 원래 거리 공간에서 임베디드 공간으로 거리를 매핑하는 함수 f가 존재하여 거리가 보존되도록 허용합니다.
정규화된 스케일링된 등거리 임베딩: 지정된 길이의 문자열 쌍 사이의 정규화된 거리를 동일한 길이의 쌍의 최대 거리로 나눈 값으로 정의하여 정규화된 거리를 보존합니다.
오류 수정 코드: 더 작은 알파벳 Σ에서 오류 수정 코드를 구성하여 코드워드 쌍 간에 큰 ∆indel을 보장합니다.
블록 구조 정렬: 임베디드 문자열에 대한 정렬을 원래 문자열에 대한 정렬과 일대일로 대응하는 블록 구조 정렬로 변환합니다.
AND-gadget 및 OR-gadget: 수식을 이진 문자열 쌍으로 재귀적으로 변환하여 인델 거리를 보존합니다.