본 연구 논문에서는 고차원 데이터 시각화에 널리 사용되는 t-Distributed Stochastic Neighbor Embedding (t-SNE) 기법의 성능 향상을 위한 새로운 커널 함수를 제안합니다. t-SNE는 고차원 데이터를 저차원 공간에 효과적으로 매핑하여 시각화하는 데 유용하지만, 기본적으로 사용되는 Gaussian 커널은 데이터의 국소적인 구조를 유지하는 데 어려움을 겪을 수 있습니다. 이러한 한계점을 해결하기 위해 본 논문에서는 Isolation Kernel의 개념을 기반으로 하는 Modified Isolation Kernel (MIK)을 제안합니다. MIK는 국소 구조를 보다 정확하게 포착하기 위해 적응형 밀도 추정을 사용하고 강 robust 추정을 통합합니다. 또한 인접 지점에는 더 높은 유사도 값을 할당하고 먼 지점에는 더 낮은 값을 할당합니다.
본 논문에서는 차원 축소 기법, t-SNE 변형 및 확장, 커널 기반 차원 축소 방법의 세 가지 주요 영역으로 관련 연구를 검토합니다. 주성분 분석(PCA), 다차원 스케일링(MDS), Isomap, Laplacian Eigenmaps, 선형 판별 분석(LDA), UMAP과 같은 기존 기법들의 장단점을 분석하고, t-SNE의 이론적 분석, 변형, 커널 기반 확장에 대한 연구들을 살펴봅니다.
MIK는 Gaussian 커널과 Isolation 커널의 단점을 해결하기 위해 고안되었습니다. 적응형 이웃 가중치와 국소 밀도 정보를 커널 계산에 통합하여 t-SNE 시각화의 견고성, 균형 및 해석 가능성을 향상시킵니다.
MIK는 데이터 포인트 i와 j의 적응형 밀도 추정치인 pi와 pj를 포함하는 항
1
√pipj
를 통합합니다. 이 항은 데이터 포인트의 국소 밀도를 기반으로 유사도 계산을 조정하여 국소 구조를 보다 효과적으로 포착할 수 있도록 합니다. 대조적으로, 단순 Isolation 커널에는 밀도 기반 공식이 포함되어 있지 않습니다.
t-SNE 알고리즘에서 저차원 임베딩의 초기화는 시각화 및 차원 축소의 수렴 및 품질을 결정하는 데 중요한 역할을 합니다. 본 논문에서는 2D t-SNE 표현을 초기화하는 세 가지 방법, 즉 Random, PCA 기반 및 Random Walk 기반 초기화를 살펴봅니다.
본 논문에서는 Spike2Vec, Spaced k-mer, PWM2Vec의 세 가지 임베딩 방법을 사용하여 실험을 진행합니다.
그림 1은 알고리즘 2에도 나와 있는 t-SNE의 흐름도를 보여줍니다. 첫 번째 단계는 쌍별 유사도(유사도)를 계산하는 것입니다. 이는 그림 1-b)-(i)와 같이 Gaussian, Isolation 및 Modified Isolation Kernel을 포함하여 유사도 행렬을 얻기 위해 서로 다른 커널 함수를 사용하여 수행할 수 있습니다. 이제 알고리즘 2 2행과 그림 1-c) 및 d)와 같이 Random, PCA 또는 Random Walk의 서로 다른 초기화 방법으로 솔루션 Y를 초기화합니다. 그런 다음 알고리즘 2 11행과 그림 1-e)와 같이 포인트 X(여기서 X ∈Rd, 고차원)에 대한 거리에서 확률 값을 얻습니다. 다음 단계는 알고리즘 2 18행과 그림 1-f)와 같이 고차원 Pij와 저차원 Qij에서 결합 확률을 계산하는 것입니다. 우리는 KL divergence를 계산하여 두 분포의 변화를 측정하는데, 이는 알고리즘 2 21행과 그림 1-g)와 같이 계산 비용을 최적화합니다. 이 비용 함수에 대한 도함수를 계산하고 경사 하강을 계산하면 알고리즘 2 22행과 23행과 그림 1-h) 및 h)와 같이 여러 번 반복 후 최적의 Y가 제공됩니다. 업데이트된 Y는 고차원 데이터 포인트 X 그림 1-j)의 저차원 표현입니다.
본 섹션에서는 t-SNE에서 제안된 MIK의 성능을 평가하는 데 사용된 실험 설정에 대해 설명합니다. 실험에 사용된 데이터 세트, 평가 지표 및 매개변수 설정에 대해 설명합니다. 모든 실험은 32GB 메모리와 Windows 10 OS를 갖춘 2.4GHz 프로세서의 Core i5 시스템에서 Python을 사용하여 수행됩니다.
본 섹션에서는 시각화, 분류 및 클러스터링에 대한 결과를 보고합니다.
다른 초기화 기반 t-SNE를 사용한 GISAID 데이터에 대한 이웃 일치 및 신뢰성 결과는 Spike2Vec, Spaced k-mers 및 PWM2Vec 기반 임베딩에 대해 그림 2에 보고됩니다. 마찬가지로 뉴클레오티드 및 단백질 하위 세포 데이터 세트의 신뢰성에 대한 결과는 각각 그림 3과 그림 4(부록 참조)에 보고됩니다.
단백질 하위 세포 데이터에 대한 분류 결과는 표 2(부록 참조)에 나와 있습니다. 수정된 Isolation 커널(MLP 및 랜덤 포레스트 분류기)이 있는 Spaced k-mers 임베딩은 Gaussian 및 Isolation 커널과 교육 런타임(제안된 MIK가 PWM2Vec을 사용하여 나이브 베이즈 분류기를 사용하여 최상의 성능을 보이는)을 제외한 모든 평가 지표에 대한 다른 모든 임베딩 방법보다 성능이 뛰어납니다. 유
클러스터링의 경우 데이터 세트의 고유 레이블 수와 유
본 논문에서는 Gaussian 커널(GK)의 대안으로 MIK라는 t-SNE 계산 방법을 제안합니다. MIK는 국소 및 글로벌 구조의 보존을 개선하기 위해 적응형 밀도 추정을 추가함으로써 GK 및 IK의 단점을 해결합니다. 다양한 데이터 세트에 대한 실험 결과는 MIK가 다른 것보다 우수함을 보여줍니다. 향후 연구에서는 계산 효율성을 개선하는 것과 함께 다른 데이터 세트를 사용한 MIK의 성능을 평가하는 데 중점을 둘 것입니다. 또 다른 흥미로운 미래 확장은 UMAP과 같은 다른 시각화 방법과 결과를 비교하는 것입니다.
To Another Language
from source content
arxiv.org
Thông tin chi tiết chính được chắt lọc từ
by Sarwan Ali, ... lúc arxiv.org 10-22-2024
https://arxiv.org/pdf/2410.15688.pdfYêu cầu sâu hơn