核心概念
단일 세포 RNA 시퀀싱 데이터의 고차원 구조와 불확실성을 효과적으로 저차원 공간에 시각화하는 방법을 제안한다.
摘要
이 연구는 단일 세포 RNA 시퀀싱 데이터의 시각화를 위해 불확실성 인식 t-분포 확률적 이웃 임베딩(Ut-SNE)을 제안한다. 기존의 t-SNE 방법은 데이터의 불확실성을 고려하지 않아 잘못된 시각화 결과를 초래할 수 있다. Ut-SNE는 데이터 포인트의 분포를 확률적으로 표현하여 불확실성을 반영한다. 이를 통해 데이터의 국소 구조와 불확실성을 동시에 보존하는 저차원 임베딩을 생성한다.
Ut-SNE는 다음과 같은 주요 단계로 구성된다:
- 데이터 포인트의 확률적 표현: 데이터 포인트의 평균과 분산을 이용하여 가우시안 분포로 모델링한다.
- 불확실한 유사도 측정: 데이터 포인트 간 확률적 거리를 계산하여 유사도를 정의한다.
- 고차원-저차원 간 분포 정렬: 고차원 데이터와 저차원 임베딩의 분포 차이를 최소화하도록 최적화한다.
- 불확실성 시각화: 저차원 임베딩에 불확실성 정보를 시각적으로 표현한다.
Ut-SNE는 다양한 단일 세포 RNA 시퀀싱 데이터셋에 적용되어 기존 방법보다 우수한 성능을 보였다. 특히 유방 조직, 지방 조직, 면역 세포 데이터에서 불확실성 정보를 효과적으로 시각화하여 생물학적 통찰을 제공하였다.
统计
단일 세포 RNA 시퀀싱 데이터에서 각 데이터 포인트의 평균과 분산은 데이터의 불확실성을 나타낸다.
데이터 포인트 간 확률적 거리는 E[∥xi - xj∥2] = Σ Si + Σ Sj + ∥xi - xj∥2 로 계산된다.
저차원 임베딩 간 확률적 거리는 E[∥yi - yj∥2] = Σ Ai · diag(Si) · ATi + Σ Aj · diag(Sj) · ATj + ∥Aixi - Ajxj∥2 로 계산된다.
引用
"단일 세포 RNA 시퀀싱 데이터에는 실험 절차, 기술적 한계, 생물학적 변이성으로 인한 노이즈가 포함되어 있다. 이러한 노이즈는 데이터의 변동성에 기여하여 잘못된 클러스터링이나 실제 구조 은폐를 초래할 수 있다."
"Ut-SNE는 데이터의 불확실성을 효과적으로 시각화하여 생물학적 프로세스에 대한 새로운 관점을 제공할 수 있다."