Core Concepts
관찰된 데이터 샘플 간 결과 변수 분포의 변화를 설명하기 위해 각 잠재적 원인의 기여도를 정량화하는 새로운 추정 전략을 제안한다. 이 방법은 인과 모델이 주어진 상황에서 회귀 및 재가중 방법을 결합하여 다중 강건성을 가진다.
Abstract
이 논문은 두 개의 데이터 샘플을 비교하여 결과 변수의 분포 변화를 관찰하는 상황을 다룬다. 다수의 설명 변수가 존재할 때, 각 잠재적 원인이 변화에 기여하는 정도를 정량화하는 것이 목표이다.
저자들은 인과 모델이 주어진 상황에서 회귀 및 재가중 방법을 결합한 새로운 추정 전략을 제안한다. 이 방법은 모델의 일부가 잘못 지정되어도 목표 모수를 여전히 회복할 수 있는 다중 강건성을 가진다. 저자들은 이 추정량이 일관성과 점근적 정규성을 가짐을 보이며, 점근적 분산도 일관적으로 추정할 수 있음을 보인다.
이 방법은 Shapley 값과 같은 기존 인과적 변화 귀속 프레임워크에 통합될 수 있으며, 이 경우 일관성과 점근적 정규성 특성을 상속받게 된다. 몬테카를로 시뮬레이션에서 이 방법의 우수한 성능을 보이며, 실증 적용 사례에서도 유용성을 입증한다.
Stats
관찰된 데이터 샘플 간 결과 변수 Y의 평균 변화를 각 설명 변수의 기여도로 분해할 수 있다.
제안된 추정량은 회귀 함수 또는 가중치 중 하나만 올바르게 지정되어도 일관성을 가진다.
제안된 추정량은 일관성과 점근적 정규성을 가지며, 점근적 분산도 일관적으로 추정할 수 있다.
Quotes
"Comparing two samples of data, we observe a change in the distribution of an outcome variable. In the presence of multiple explanatory variables, how much of the change can be explained by each possible cause?"
"Our proposed methodology is multiply robust, meaning that it still recovers the target parameter under partial misspecification."
"We prove that our estimator is consistent and asymptotically normal. Moreover, it can be incorporated into existing frameworks for causal attribution, such as Shapley values, which will inherit the consistency and large-sample distribution properties."