본 연구 논문에서는 고차원 데이터 시각화에 널리 사용되는 t-Distributed Stochastic Neighbor Embedding (t-SNE) 기법의 성능 향상을 위한 새로운 커널 함수를 제안합니다. t-SNE는 고차원 데이터를 저차원 공간에 효과적으로 매핑하여 시각화하는 데 유용하지만, 기본적으로 사용되는 Gaussian 커널은 데이터의 국소적인 구조를 유지하는 데 어려움을 겪을 수 있습니다. 이러한 한계점을 해결하기 위해 본 논문에서는 Isolation Kernel의 개념을 기반으로 하는 Modified Isolation Kernel (MIK)을 제안합니다. MIK는 국소 구조를 보다 정확하게 포착하기 위해 적응형 밀도 추정을 사용하고 강 robust 추정을 통합합니다. 또한 인접 지점에는 더 높은 유사도 값을 할당하고 먼 지점에는 더 낮은 값을 할당합니다.
본 논문에서는 차원 축소 기법, t-SNE 변형 및 확장, 커널 기반 차원 축소 방법의 세 가지 주요 영역으로 관련 연구를 검토합니다. 주성분 분석(PCA), 다차원 스케일링(MDS), Isomap, Laplacian Eigenmaps, 선형 판별 분석(LDA), UMAP과 같은 기존 기법들의 장단점을 분석하고, t-SNE의 이론적 분석, 변형, 커널 기반 확장에 대한 연구들을 살펴봅니다.
MIK는 Gaussian 커널과 Isolation 커널의 단점을 해결하기 위해 고안되었습니다. 적응형 이웃 가중치와 국소 밀도 정보를 커널 계산에 통합하여 t-SNE 시각화의 견고성, 균형 및 해석 가능성을 향상시킵니다.
MIK는 데이터 포인트 i와 j의 적응형 밀도 추정치인 pi와 pj를 포함하는 항
1
√pipj
를 통합합니다. 이 항은 데이터 포인트의 국소 밀도를 기반으로 유사도 계산을 조정하여 국소 구조를 보다 효과적으로 포착할 수 있도록 합니다. 대조적으로, 단순 Isolation 커널에는 밀도 기반 공식이 포함되어 있지 않습니다.
t-SNE 알고리즘에서 저차원 임베딩의 초기화는 시각화 및 차원 축소의 수렴 및 품질을 결정하는 데 중요한 역할을 합니다. 본 논문에서는 2D t-SNE 표현을 초기화하는 세 가지 방법, 즉 Random, PCA 기반 및 Random Walk 기반 초기화를 살펴봅니다.
본 논문에서는 Spike2Vec, Spaced k-mer, PWM2Vec의 세 가지 임베딩 방법을 사용하여 실험을 진행합니다.
그림 1은 알고리즘 2에도 나와 있는 t-SNE의 흐름도를 보여줍니다. 첫 번째 단계는 쌍별 유사도(유사도)를 계산하는 것입니다. 이는 그림 1-b)-(i)와 같이 Gaussian, Isolation 및 Modified Isolation Kernel을 포함하여 유사도 행렬을 얻기 위해 서로 다른 커널 함수를 사용하여 수행할 수 있습니다. 이제 알고리즘 2 2행과 그림 1-c) 및 d)와 같이 Random, PCA 또는 Random Walk의 서로 다른 초기화 방법으로 솔루션 Y를 초기화합니다. 그런 다음 알고리즘 2 11행과 그림 1-e)와 같이 포인트 X(여기서 X ∈Rd, 고차원)에 대한 거리에서 확률 값을 얻습니다. 다음 단계는 알고리즘 2 18행과 그림 1-f)와 같이 고차원 Pij와 저차원 Qij에서 결합 확률을 계산하는 것입니다. 우리는 KL divergence를 계산하여 두 분포의 변화를 측정하는데, 이는 알고리즘 2 21행과 그림 1-g)와 같이 계산 비용을 최적화합니다. 이 비용 함수에 대한 도함수를 계산하고 경사 하강을 계산하면 알고리즘 2 22행과 23행과 그림 1-h) 및 h)와 같이 여러 번 반복 후 최적의 Y가 제공됩니다. 업데이트된 Y는 고차원 데이터 포인트 X 그림 1-j)의 저차원 표현입니다.
본 섹션에서는 t-SNE에서 제안된 MIK의 성능을 평가하는 데 사용된 실험 설정에 대해 설명합니다. 실험에 사용된 데이터 세트, 평가 지표 및 매개변수 설정에 대해 설명합니다. 모든 실험은 32GB 메모리와 Windows 10 OS를 갖춘 2.4GHz 프로세서의 Core i5 시스템에서 Python을 사용하여 수행됩니다.
본 섹션에서는 시각화, 분류 및 클러스터링에 대한 결과를 보고합니다.
다른 초기화 기반 t-SNE를 사용한 GISAID 데이터에 대한 이웃 일치 및 신뢰성 결과는 Spike2Vec, Spaced k-mers 및 PWM2Vec 기반 임베딩에 대해 그림 2에 보고됩니다. 마찬가지로 뉴클레오티드 및 단백질 하위 세포 데이터 세트의 신뢰성에 대한 결과는 각각 그림 3과 그림 4(부록 참조)에 보고됩니다.
단백질 하위 세포 데이터에 대한 분류 결과는 표 2(부록 참조)에 나와 있습니다. 수정된 Isolation 커널(MLP 및 랜덤 포레스트 분류기)이 있는 Spaced k-mers 임베딩은 Gaussian 및 Isolation 커널과 교육 런타임(제안된 MIK가 PWM2Vec을 사용하여 나이브 베이즈 분류기를 사용하여 최상의 성능을 보이는)을 제외한 모든 평가 지표에 대한 다른 모든 임베딩 방법보다 성능이 뛰어납니다. 유
클러스터링의 경우 데이터 세트의 고유 레이블 수와 유
본 논문에서는 Gaussian 커널(GK)의 대안으로 MIK라는 t-SNE 계산 방법을 제안합니다. MIK는 국소 및 글로벌 구조의 보존을 개선하기 위해 적응형 밀도 추정을 추가함으로써 GK 및 IK의 단점을 해결합니다. 다양한 데이터 세트에 대한 실험 결과는 MIK가 다른 것보다 우수함을 보여줍니다. 향후 연구에서는 계산 효율성을 개선하는 것과 함께 다른 데이터 세트를 사용한 MIK의 성능을 평가하는 데 중점을 둘 것입니다. 또 다른 흥미로운 미래 확장은 UMAP과 같은 다른 시각화 방법과 결과를 비교하는 것입니다.
In eine andere Sprache
aus dem Quellinhalt
arxiv.org
Wichtige Erkenntnisse aus
by Sarwan Ali, ... um arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15688.pdfTiefere Fragen