핵심 개념
대규모 데이터 텐서의 효율적인 학습을 위한 요인화된 임베딩의 중요성
초록
데이터 텐서의 요인화된 임베딩을 학습하여 정보에 효율적으로 접근
무작위 샘플링을 통해 최적의 순위-r 스케치 텐서 분해
진행적 스케치 생성 방법을 통해 최적의 하위 샘플링 정책 학습
다양한 대규모 데이터 세트에 대한 성능 검증 및 비교
효율적인 텐서 스케치 생성을 위한 샘플링 비율 및 정책 학습의 중요성 강조
통계
"NARR"은 현재 29.4 테라바이트 크기의 데이터를 수집 중
"R-SCT는 무작위로 데이터 하위 집합을 샘플링하여 최적의 순위-r 근사값을 생성
"P-SCT는 활성 학습을 통해 최적의 하위 샘플링 스케치 스트리밍 프로토콜을 학습
인용구
"Approximate low rank and low memory representation (compact) generation of tensor sketches provide a space and time efficient alternative."
"P-SCT produces more accurate, low rank approximations than R-SCT using the same amount of input data subsets."