범주형 변수의 높은 차원성과 희소성으로 인한 추론의 어려움을 해결하기 위해 범주형 변수를 저차원 공간에 임베딩하여 안정적이고 강건한 추정을 가능하게 하는 방법을 제안한다.
실제 데이터셋과 인공적으로 생성된 데이터셋 모두에서 나타나는 보편적인 특성을 통계물리학과 랜덤행렬이론을 활용하여 분석하였다. 주요 발견은 다음과 같다: (i) 실제 데이터셋의 고유값 분포가 무상관 정규분포 데이터와 크게 다르다, (ii) 장기 상관관계를 가진 가우시안 데이터로 이 스케일링 행동을 완전히 모델링할 수 있다, (iii) 생성된 데이터와 실제 데이터 모두 RMT 관점에서 볼 때 적분 가능한 시스템이 아닌 혼돈 시스템에 속한다, (iv) RMT 통계적 행동은 실제 데이터에서도 기존에 사용되던 것보다 훨씬 작은 데이터 크기에서 이미 나타난다, (v) 샤논 엔트로피는 국소 RMT 구조와 고유값 스케일링과 상관관계가 있으며, 강한 상관관계를 가진 데이터셋에서 훨씬 작다.
적응형 데이터 분석에서는 이전 쿼리 결과에 의해 인코딩된 정보로 인해 과적합이 발생할 수 있다. 이를 방지하기 위해 단순한 가우시안 노이즈 추가 알고리즘만으로도 충분하며, 이는 쿼리의 분산에 의존하는 보장을 제공한다.
실험 데이터와 관찰 데이터를 결합하여 처리 효과를 일관되게 추정할 수 있는 이중 기계 학습 접근법을 제안한다. 이 방법은 외부 타당성 및 무관성 가정 위반을 테스트하고, 이러한 가정 위반이 있는 경우에도 일관된 처리 효과 추정량을 제공한다.