이 논문은 데이터 증강을 위한 효율적인 상호 정보량 추정 방법을 제안한다. 데이터 증강은 외부 데이터셋의 열을 결합하여 데이터 분석과 기계 학습 모델을 향상시키는 기술이다. 그러나 관련성 있는 외부 테이블을 효율적으로 발견하는 것이 어렵다. 기존 접근법은 데이터 발견 시스템을 사용하여 "조인 가능한" 테이블을 식별하지만, 이렇게 얻은 테이블 수가 너무 많아 불필요한 조인이 발생한다.
이 논문에서는 상호 정보량(MI) 추정을 사용하여 관련성 있는 조인 가능 테이블을 효율적으로 찾는 방법을 제안한다. 새로운 스케치 기법을 소개하여 조인을 수행하지 않고도 MI를 평가할 수 있으며, 관련성이 높은 소수의 테이블만 반환한다. 또한 실험을 통해 제안 기법의 효과를 입증한다.
Till ett annat språk
från källinnehåll
arxiv.org
Djupare frågor