핵심 개념
CCA 방법론의 가족은 다중 관점 학습에서 기반이 되는 기술이다. 정규화된 선형 CCA 방법은 부분 최소 제곱(PLS)을 일반화하고 일반화된 고유값 문제(GEP) 프레임워크와 통합될 수 있다. 그러나 이러한 선형 방법에 대한 기존 알고리즘은 대규모 데이터에 대해 계산적으로 실행 불가능하다. 딥 CCA 확장은 큰 잠재력을 보이지만, 현재의 학습 절차는 느리고 복잡하다. 우리는 GEP의 상위 부공간을 특성화하는 새로운 무제한 목적함수를 제안한다. 우리의 핵심 기여는 확률적 경사 하강법을 해당 CCA 목적함수에 적용하여 얻은 빠른 알고리즘 가족이다. 이 알고리즘은 기존 최첨단 기술보다 훨씬 빠르게 수렴하고 더 높은 상관관계를 복구한다. 이러한 개선을 통해 우리는 영국 바이오뱅크의 매우 큰 생물의학 데이터셋에 대한 최초의 PLS 분석을 수행할 수 있었다. 마지막으로 우리는 CIFAR-10 및 CIFAR-100에서 'CCA 가족' 자기 지도 학습(SSL) 방법의 성능을 최소한의 하이퍼파라미터 튜닝으로 달성할 수 있었고, 이러한 방법과 고전적인 CCA 간의 관계에 대한 이론을 제시하여 향후 통찰력을 제공한다.
초록
이 논문은 대규모 데이터에 적용할 수 있는 효율적이고 확장 가능한 정준 상관 분석(CCA) 및 자기 지도 학습(SSL) 알고리즘을 소개한다.
- 무제한 목적 함수 제안:
- 일반화된 고유값 문제(GEP)의 상위 부공간을 특성화하는 새로운 무제한 손실 함수를 제안했다.
- 이 손실 함수는 스토캐스틱 경사 하강법을 통해 최적화할 수 있으며, 기존 방법보다 빠르게 수렴하고 더 높은 상관관계를 달성한다.
- 통합 알고리즘 개발:
- 제안한 무제한 손실 함수를 활용하여 확률적 PLS, 확률적 CCA, 딥 CCA에 대한 통합 알고리즘을 개발했다.
- 이 알고리즘은 기존 최첨단 기술보다 훨씬 빠르게 수렴하고 더 높은 상관관계를 달성한다.
- 대규모 데이터 적용:
- 개발한 확률적 PLS 알고리즘을 사용하여 영국 바이오뱅크의 매우 큰 생물의학 데이터셋(33,000명, 50만 특징)에 대한 PLS 분석을 수행했다.
- 이는 이전에는 실행 불가능한 것으로 여겨졌던 작업이다.
- SSL 방법과의 연결:
- 제안한 SSL 알고리즘은 Barlow twins 및 VICReg와 유사한 성능을 보이지만, 하이퍼파라미터 튜닝이 필요 없다.
- CCA와 이러한 SSL 방법 간의 관계에 대한 이론적 분석을 제공하여 향후 발전의 기반을 마련했다.
통계
33,333명의 개인과 582,565개의 유전 변이로 구성된 영국 바이오뱅크 데이터셋
82개의 뇌 영상 영역 특징
인용구
"CCA 방법론의 가족은 다중 관점 학습에서 기반이 되는 기술이다."
"우리는 GEP의 상위 부공간을 특성화하는 새로운 무제한 목적함수를 제안한다."
"우리의 핵심 기여는 확률적 경사 하강법을 해당 CCA 목적함수에 적용하여 얻은 빠른 알고리즘 가족이다."