Core Concepts
노이즈로 인해 음수 값이 포함된 데이터에서도 비음수 제약을 유지하며 효과적으로 템플릿과 계수를 추출할 수 있는 Shift-NMF와 Nearly-NMF 알고리즘을 제안한다.
Abstract
비음수 행렬 분해(NMF)는 노이즈가 있는 데이터, 특히 천문 데이터 분석에 유용한 차원 축소 기법이다.
그러나 관측 데이터에 음수 값이 포함될 수 있으며, 기존 NMF 방법은 이를 통계적으로 일관되게 다루지 못한다.
이 논문에서는 Shift-NMF와 Nearly-NMF라는 두 가지 새로운 NMF 알고리즘을 제안한다.
이 알고리즘들은 음수 데이터 공간을 활용하면서도 비음수 제약을 유지할 수 있다.
단순한 음수 값 제거 방식과 달리, 이 알고리즘들은 음수 값을 적절히 다루어 양의 오프셋을 도입하지 않는다.
간단한 모의실험과 더 현실적인 모의실험을 통해 알고리즘의 효과를 입증하였다.
두 알고리즘 모두 단조 감소 업데이트 규칙을 가지고 있음을 증명하였다.
Stats
노이즈가 있는 데이터에서 11.4%가 음수 값이다.
전체 데이터 중 61.1%가 결측값이다.
Quotes
"Even if all data values are positive, the noise values intrinsic in data collection mean that standard NMF as presented in (1) will perform suboptimally and will attempt to fit noise values when generating template and coefficient matrices."
"Any analysis of the data should treat both positive and negative values in a statistically consistent manner."