Core Concepts
本研究では、大規模データ行列の低ランク近似を効率的に行うための新しい反復的なDEIM-CUR分解手法を提案する。従来のDEIM手法を拡張し、反復的に列と行のインデックスを選択することで、近似精度を向上させる。また、大規模行列に対しても適用可能な反復的な特異値分解アルゴリズムを組み合わせることで、計算コストを抑えた手法を実現する。
Abstract
本論文では、大規模データ行列の低ランク近似を効率的に行うための新しい反復的なDEIM-CUR分解手法を提案している。
主な内容は以下の通り:
従来のDEIM手法を拡張し、反復的に列と行のインデックスを選択することで、近似精度を向上させる手法を提案した。
CADP-CX: 固定数のインデックスを選択する手法
DADP-CX: 特異値の減衰に基づいて動的にインデックス数を決める手法
DADP-CUR: DADP-CXの変形で、行列の両側への射影誤差を考慮した手法
大規模行列に対しても適用可能な反復的な特異値分解アルゴリズムを提案した。
Krylov-Schur法を用いて、明示的に行列を計算せずに特異値と特異ベクトルを近似的に求める。
提案手法の理論的な誤差解析を行い、従来手法と比較して優れた近似精度を示した。
様々な実データセットを用いた数値実験により、提案手法の有効性を実証した。
Stats
合成データ行列の場合、提案手法のCUR分解の相対誤差は約2.2%~2.4%
Reuters-21578データセットの場合、提案手法のCUR分解の相対誤差は約20%~30%
TechTCデータセットの場合、提案手法のCUR分解の相対誤差は約40%~60%
g7jac100データセットの場合、提案手法のCUR分解の相対誤差は約20%~40%
invextr1-newデータセットの場合、提案手法のCUR分解の相対誤差は約5%~15%