핵심 개념
기계 학습은 질병 진단 및 예후 예측과 같은 임상 마이크로바이옴 혁신을 가속화할 수 있다. 이를 위해서는 규제 기관이 설정한 높은 기준을 충족하거나 능가하는 예측 기능을 가진 고품질, 재현 가능, 해석 가능한 워크플로우가 필요하다.
초록
이 논문은 2021-2022년에 출판된 100개의 동료 검토 저널 논문을 분석하여 마이크로바이옴 데이터에 대한 감독 학습 적용의 현재 관행을 특성화합니다. 데이터셋 크기 완화, 데이터 누출 방지 등 실험 설계에 대한 주요 고려 사항을 다루며, 모델 성능, 신뢰성 및 재현성을 저하시킬 수 있는 일반적인 실험 설계 오류를 피하는 방법에 대한 지침을 제공합니다. 이 논의는 마이크로바이옴 커뮤니티를 위해 특별히 설계된 기계 학습 실험 설계의 기본 원칙을 보여주는 대화형 온라인 자습서와 함께 제공됩니다. 마이크로바이옴 분야의 감독 학습에 대한 커뮤니티 최선의 실천을 공식화하는 것은 환자와 기타 이해관계자의 이익을 위해 임상 연구의 성공과 효율성을 높이는 데 중요한 단계입니다.
통계
연구에 포함된 100개 논문의 중간 데이터셋 크기는 161.5개 샘플이었습니다.
86개 연구 중 14%에서는 데이터셋 크기를 회수할 수 없었습니다.
86% 연구에서 1,000개 미만의 샘플이 사용되었고, 3분의 1 이상에서 100개 미만의 샘플이 사용되었습니다.
63개 이진 분류 과제 중 29개는 균형잡힌 데이터셋, 15개는 약간 불균형한 데이터셋, 9개는 중간 정도 불균형한 데이터셋이었습니다.
인용구
"기계 학습은 질병 선별, 진단, 예후 예측, 바이오마커 발견, 치료 개발 등 임상 마이크로바이옴 혁신을 가속화할 수 있는 강력한 도구로 부상하고 있습니다."
"마이크로바이옴 데이터에 기계 학습을 적용하는 데 있어 주요 기술적 과제로는 작은 데이터셋 크기, 다중 데이터 모달리티 통합, 표준 기계 학습 평가 패러다임의 미묘한 차이 등이 있습니다."