מושגי ליבה
Dieser Artikel füllt die begrenzte statistische Erkenntnis über Shapley-Werte als Maß für die Variablenwichtigkeit aus einer nichtparametrischen (oder Glättungs-) Perspektive. Wir führen Shapley-Kurven auf Populationsebene ein, um die wahre Variablenwichtigkeit zu messen, die durch die bedingte Erwartungsfunktion und die Verteilung der Kovariaten bestimmt wird.
תקציר
Der Artikel führt Shapley-Kurven auf Populationsebene ein, um die wahre Variablenwichtigkeit zu messen. Zwei Schätzansätze werden untersucht:
- Der komponentenbasierte Ansatz erfordert die direkte Schätzung aller Komponenten in der Shapley-Zerlegung.
- Der integrationsbasierte Ansatz erfordert nur eine einzige Schätzung des vollständigen Regressionsmodells. Die Schätzungen der niedrigdimensionalen Komponenten in der Shapley-Zerlegung werden durch Integration der nicht in der gegebenen Teilmenge enthaltenen Variablen erhalten.
Es wird gezeigt, dass beide Schätzer die minimax-optimale Konvergenzrate erreichen und asymptotisch normalverteilt sind. Der integrationsbasierte Ansatz hat jedoch einen größeren Bias. Außerdem wird ein konsistentes Wild-Bootstrap-Verfahren vorgestellt, um in Finite-Stichproben-Szenarien bessere Überdeckung zu erzielen.
סטטיסטיקה
Die Regressionsgleichung lautet: Yi = m(Xi) + εi, i = 1, ..., n, mit E(εi|Xi) = 0 und m ∈ M, wobei M eine reichhaltige Klasse von Funktionen ist.
Die Shapley-Kurve für Variable j ist definiert als:
ϕj(x) = Σs⊆N\j (1/d)(d-1/|s|-1)[ms∪j(xs∪j) - ms(xs)],
wobei ms(xs) = E(Y|Xs=xs) ist.
ציטוטים
Keine relevanten Zitate identifiziert.