이 논문은 마이크로바이옴과 메타게놈 데이터 분석을 위한 딥러닝 및 언어 모델의 최신 동향을 리뷰한다.
먼저 LLM의 전반적인 구조와 원리를 설명하고, 이를 유전체 서열 모델링에 적용하는 방법을 소개한다.
이어서 단백질 언어 모델과 DNA/유전체 언어 모델의 두 가지 주요 범주로 나누어 각각의 특징과 활용 사례를 살펴본다. 단백질 언어 모델은 개별 단백질의 설계 및 예측에 활용되며, DNA/유전체 언어 모델은 유전자 및 유전체 수준의 특성을 파악하는 데 사용된다.
이후 바이롬 주석 및 바이러스-숙주 상호작용 예측, 생합성 유전자 군집 예측, 메타게놈 연구에서의 지식 통합 등 세 가지 주요 응용 분야를 자세히 다룬다.
마지막으로 이 분야의 향후 전망과 과제를 논의한다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究