핵심 개념
대규모 게놈 데이터를 효율적으로 저장, 검색 및 분석하기 위해 압축된 전체 텍스트 인덱스, 특히 BWT(Burrows-Wheeler Transform) 기반 인덱스를 테라베이스 규모로 구축하고 활용하는 방법을 제시합니다.
초록
BWT 구축 및 검색: 테라베이스 규모로 확장
본 연구 논문에서는 대량의 게놈 데이터를 효율적으로 처리하기 위한 새로운 알고리즘인 ropebwt3를 소개합니다. ropebwt3는 BWT(Burrows-Wheeler Transform) 구축 및 쿼리에 특화된 알고리즘으로, 테라베이스 규모의 데이터셋을 효율적으로 처리할 수 있도록 설계되었습니다.
본 연구의 주요 목표는 기존 BWT 구축 방법의 한계점을 극복하고, 대규모 게놈 데이터셋을 위한 효율적이고 확장 가능한 BWT 구축 및 쿼리 방법을 개발하는 것입니다.
ropebwt3: ropebwt3는 libsais 라이브러리를 사용하여 입력 게놈 시퀀스의 일부에 대한 부분 BWT를 계산하고, 이를 기존 BWT에 병합하는 방식으로 작동합니다. BWT는 B+-트리로 인코딩되어 효율적인 랭크 쿼리 및 삽입을 지원합니다.
이중 가닥 BWT: DNA 시퀀스의 특성을 활용하여, ropebwt3는 정방향 및 역방향 검색을 모두 지원하는 이중 가닥 BWT(DS-BWT)를 구축합니다.
정확한 일치 및 부정확한 일치 검색: ropebwt3는 효율적인 SMEM(Supermaximal Exact Match) 검색 알고리즘과 수정된 BWA-SW 알고리즘을 사용하여 정확한 일치 및 부정확한 일치를 찾습니다.
지역 일배체형 다양성 추정: BWA-SW 알고리즘을 활용하여 쿼리 시퀀스에 정렬될 수 있는 일배체형을 열거하고, 인덱스에서 해당 빈도를 추정합니다.