핵심 개념
본 연구에서는 대규모 메타바코딩 데이터셋에 대한 신속하고 정확한 분류 방법을 제시한다. 이를 위해 근사 우도 기반 계통수 배치 방법을 개발하였으며, 다양한 모의실험 및 실제 데이터 분석을 통해 기존 방법들에 비해 우수한 성능을 보였다.
초록
본 연구는 환경 DNA(eDNA) 분석에서 중요한 과제인 DNA 염기서열의 분류 문제를 다룬다. 기존의 분류 방법은 크게 세 가지로 구분되는데, 조성 기반, 정렬 기반, 계통수 기반 방법이 있다. 이 중 계통수 기반 방법이 가장 정확하지만 계산 복잡도가 높아 대규모 데이터에 적용하기 어려웠다.
본 연구에서는 근사 우도 기반 계통수 배치 방법인 Tronko를 제안한다. Tronko는 다음과 같은 과정으로 작동한다:
- 참조 데이터베이스 구축: 다중 서열 정렬과 계통수 추정을 통해 참조 데이터베이스를 구축한다. 데이터베이스가 너무 크면 분할 정복 방식으로 처리한다.
- 쿼리 서열 분류: BWA-MEM으로 최고 점수의 참조 서열을 찾고, 이에 대한 전역 정렬을 수행한다. 그 후 근사 우도 점수를 계산하여 최상위 노드를 찾고, 이를 바탕으로 최소 공통 조상(LCA)을 결정한다.
다양한 모의실험과 실제 데이터 분석을 통해 Tronko가 기존 방법들에 비해 더 높은 정확도와 속도를 보였다. 특히 다형성이나 염기서열 오류가 있는 경우에도 강건한 성능을 보였다.
통계
150bp 페어엔드 리드에서 1% 오류/다형성이 있을 때, Tronko는 속 수준에서 70.1%의 재현율과 9.8%의 오분류율을 보였다. 반면 kraken2, MEGAN, metaphlan2는 각각 90.6%, 52.1%, 95.0%의 재현율과 33.5%, 10.0%, 27.7%의 오분류율을 보였다.
150bp 싱글엔드 리드에서 0% 오류/다형성이 있을 때, Tronko는 종 수준에서 58.6%의 재현율과 0.1%의 오분류율을 보였다. 반면 kraken2, MEGAN, metaphlan2는 각각 85.4%, 60.7%, 98.1%의 재현율과 1.5%, 0.1%, 11.0%의 오분류율을 보였다.
인용구
"Tronko는 다형성이나 염기서열 오류가 있는 경우에도 강건한 성능을 보였다."
"Tronko는 기존 방법들에 비해 더 높은 정확도와 속도를 보였다."