이 논문은 분류학적 분류를 위해 최대 정확 일치(MEM)를 활용하는 방법을 제안한다. 기존의 k-mer 기반 분류기와 달리, MEM을 이용하면 더 나은 분류 성능을 얻을 수 있다.
그러나 MEM 테이블을 구축하는 것은 큰 유전체 데이터에서는 실용적이지 않다. 이를 해결하기 위해 저자들은 KATKA 커널, 최소화기 요약, 최소화기 요약의 KATKA 커널과 같은 압축 표현을 활용한다.
이러한 압축 표현을 이용하여 구축한 FM-index를 통해 MEM 테이블을 근사적으로 구축할 수 있다. 실험 결과, 압축 표현을 활용하면 정확도를 크게 저하시키지 않으면서도 상당한 압축을 달성할 수 있다.
To Another Language
from source content
arxiv.org
Djupare frågor