Core Concepts
결측 데이터가 있는 데이터셋에서 유사한 샘플들 간의 관계를 활용하여 정확한 데이터 보완을 수행하는 방법
Abstract
이 논문은 결측 데이터 보완을 위한 새로운 프레임워크인 IGRM(Iterative graph Generation and Reconstruction framework for Missing data imputation)을 제안한다. IGRM은 기존의 순수 이분 그래프 기반 접근법과 달리, 샘플 간 유사도를 나타내는 "친구 네트워크"를 도입하여 데이터 보완 과정에서 유사한 샘플들의 정보를 차별적으로 활용한다.
IGRM의 핵심 구성은 다음과 같다:
이분 그래프 학습 모듈: 관측된 데이터를 이분 그래프로 표현하고 그래프 신경망을 활용하여 학습한다.
친구 네트워크 증강 모듈: 이분 그래프 학습 과정에서 얻은 샘플 임베딩을 활용하여 친구 네트워크를 지속적으로 최적화한다. 이때 그래프 자동 인코더를 사용하여 친구 네트워크의 구조와 특징을 동시에 학습한다.
반복적 최적화: 이분 그래프 학습과 친구 네트워크 최적화를 반복적으로 수행하여 상호 보완적인 관계를 학습한다.
실험 결과, IGRM은 9개의 다양한 기준 데이터셋에서 기존 최고 성능 대비 9.04% 낮은 평균 절대 오차를 달성하였다. 또한 결측률이 높은 경우에도 안정적인 성능을 보였다.
Stats
결측률이 높을수록 대부분의 기존 방법들의 성능이 크게 저하되지만, IGRM은 안정적인 성능을 유지한다.
IGRM은 기존 최고 성능 대비 9.04% 낮은 평균 절대 오차를 달성했다.
Quotes
"Similar sample should give more information about missing values."
"The large portion of missing data makes it hard to acquire accurate relations among samples."