Core Concepts
다중 서열 정렬(MSA) 결과의 유효성을 입력 서열과 정렬 점수 없이 증명할 수 있는 영지식 증명 기법을 제안한다.
Abstract
이 논문은 다중 서열 정렬(MSA) 문제에 대한 영지식 증명 기법을 제안한다. MSA는 생물정보학의 핵심 알고리즘으로, 여러 생물학적 서열(DNA, RNA, 단백질 등)을 최적으로 정렬하는 문제이다.
저자는 Circom이라는 회로 기술 언어를 사용하여 MSA 입력과 출력의 일관성을 검증하는 회로를 설계했다. 이 회로는 두 부분으로 구성된다:
정렬 결과와 점수의 일관성 검증: 정렬 점수 계산 회로를 구현하여 입력 점수와 일치하는지 확인한다.
입력 서열과 정렬의 일관성 검증: 2차원 배열의 연결 회로를 통해 각 서열과 정렬이 일치하는지 확인한다.
이 회로를 Circom으로 구현하면 zkSNARK 기술을 사용하여 영지식 증명을 생성할 수 있다. 이를 통해 정렬 결과의 유효성을 입력 서열과 점수 없이 증명할 수 있다. 이는 상업적으로 민감한 서열 정보를 보호하면서도 과학적 협력과 진보를 가능하게 한다.
실험 결과, 입력 크기에 따라 회로의 제약 조건 수가 크게 증가하는 것을 확인했다. 이를 개선하여 더 큰 규모의 MSA 문제에 적용할 수 있도록 최적화할 필요가 있다.
Stats
입력 크기에 따른 제약 조건 수:
10개 서열, 각 10자, 정렬 길이 10: 18,552개 제약 조건
10개 서열, 각 10자, 정렬 길이 100: 181,002개 제약 조건
10개 서열, 각 100자, 정렬 길이 100: 1,355,502개 제약 조건
100개 서열, 각 100자, 정렬 길이 100: 17,605,002개 제약 조건
100개 서열, 각 100자, 정렬 길이 200: 35,160,002개 제약 조건
Quotes
"이 작업은 생물정보학 분야에서 지적 재산권 보호를 위한 새로운 접근 방식을 제시한다. 영지식 증명을 통해 상업적으로 민감한 서열 정보를 보호하면서도 과학적 협력과 진보를 가능하게 할 수 있다."