Core Concepts
고차원 생물의학 데이터를 2차원 산점도로 시각화할 때 축의 해석이 어려운 문제를 해결하기 위해 클래스 및 특징 중심점을 활용하여 산점도의 해석성을 높일 수 있다.
Abstract
이 연구는 고차원 생물의학 데이터를 2차원 산점도로 시각화할 때 발생하는 해석의 어려움을 해결하기 위해 클래스 및 특징 중심점을 활용하는 방법을 제안한다.
데이터는 3가지 희귀 신경유전성 질환(샤르코-마리-투스 병, 유전성 소뇌 실조증, 유전성 spastic paraparesis)의 235개 변이체로 구성되며, 31개의 표현형 특징으로 설명된다. 이 데이터를 t-SNE를 이용해 2차원으로 축소한 후, 각 관측치의 x, y 좌표를 계산하였다. 이를 바탕으로 클래스 중심점과 특징 중심점을 계산하여 산점도에 중첩하였다.
클래스 중심점은 각 질병 클래스의 평균 좌표를 나타내며, 특징 중심점은 각 표현형 특징의 평균 좌표를 나타낸다. 이를 통해 2차원 공간에서 클래스와 특징 간의 관계를 직관적으로 파악할 수 있다. 예를 들어, 소뇌 실조증 클래스는 운동실조, 인지 장애, 진전 특징과 가까운 위치에 있으며, 샤르코-마리-투스 병은 근력 저하, 근위축, 저반사 특징과 가까운 위치에 있다.
이러한 접근법은 차원 축소된 데이터의 해석성을 높이는 데 도움이 될 수 있다. 특히 생물의학 분야에서 고차원 데이터를 시각화할 때 유용할 것으로 기대된다.
Stats
3가지 희귀 신경유전성 질환(샤르코-마리-투스 병, 유전성 소뇌 실조증, 유전성 spastic paraparesis)의 235개 변이체로 구성된 데이터셋
31개의 표현형 특징으로 설명된 데이터