Berechnung der inversen Wahrscheinlichkeitsgewichte - bedingte (multivariate) Dichteschätzung?

Die allgemeine Version:

Ich muss schätzen, wobei und stetig und multivariat sind. Ich mache es lieber nichtparametrisch, weil ich keine gute funktionale Form im Sinn habe und so etwas wie unvoreingenommen sein muss. Ich wollte einen bedingten Kernel-Dichteschätzer verwenden, aber mir wurde klar, dass ich zuerst quantisieren musste . Dann hatte ich die Idee, und aus den Daten zu schätzen und daraus zu berechnen , oder vielleicht lese ich es irgendwo und weiß nicht mehr wo. $f(A | X)$ $A$ $X$ $\hat{f}(A | X)$ $X$ $\hat{f}(A , X)$ $\hat{f}(X)$ $\hat{f}(A | X)$

Gibt es einen Grund, warum dieses Verfahren nicht gültig ist? Gibt es einen besseren oder ehrlicheren Ansatz als die Kerneldichte? Gibt es auch ein Problem bei der nichtparametrischen Schätzung der Populationsdichte aus den Probendichten? Die Daten sind Umfragedaten, und ich habe Umfragegewichte. soll ich sie irgendwie einbauen?

Die fallspezifische Version:

Es ist wahrscheinlich erwähnenswert, dass ich diese Schätzungen für inverse Wahrscheinlichkeit der Behandlungswahrscheinlichkeit in einem marginalen Strukturmodell verwenden werde, wie in Robins (2000) ( ungated PDF ). Ich beobachte eine Folge von "Behandlungen" und eine Folge von zeitlich variierenden Störfaktoren in Bezug auf einige Ergebnis , das bei auftritt . Ich habe einen einfachen parametrischen Kausalzusammenhang angenommen, , aber da es einen zeitlich variierenden Confounder $\{a_t\}_{t=0}^{4}$ $\{x_t\}_{t=0}^{4}$ $\tilde{y}$ $t=T+1$ $E[\tilde{Y} | \vec{a}]=\beta'\vec{a}$ $\beta$ ist eine voreingenommene Schätzung des "durchschnittlichen Behandlungseffekts", und der Confounder kann nicht als Regressor hinzugefügt werden, da er sich auf dem kausalen Pfad befindet und dies auch verzerrt $\beta$ . Glücklicherweise hat Doc Robins herausgefunden, dass ich unvoreingenommene / unbegründete und einigermaßen effiziente Schätzungen erhalten kann, wenn ich meine Beobachtungen neu gewichte durch:

w_{i} = \prod_{s = 0}^{4} \frac{f (a_{s} | a_{s < t})}{f (a_{s} | a_{s < t}, x_{s < t})}

$w_i = \prod_{s=0}^{4} \frac{ f(a_s | a_{s<t}) }{ f(a_s | a_{s<t},x_{s<t}) }$

Meine Frage: Für diese Folge von Gewichten brauche ich wirklich eine Schätzung. Robins empfiehlt eine logistische Regression. Aber liegt in , wird an gemessen und liegt für alle praktischen Zwecke in einer endlichen Teilmenge davon. liegt in einem geschlossenen Intervall, aber nur, weil es wirklich der Mittelwert einiger Variablen ist, die jeweils an einer endlichen Teilmenge von gemessen werden . $a_t$ $[0,\infty)^7$ $\{0,\dots\}^{7}$ $x_t$ $\{0,\dots,12\}$

Also hatte ich ein paar Ideen:

Schätzen Sie und nichtparametrisch $f(a_t, a_{s<t}, x_{s<t})$ $f(x,a_{s<t})$
Schätzen Sie mit Beta-Regression und nichtparametrisch $f(a_t | a_{s<t}, x_{s<t})$ $f( x_{s<t}, a_{s<t})$
Schätzen Sie mit Beta-Regression und schätzen Sie ) durch "Verketten" von Beta-Regressionen durch die Zeit, um das Ganze als Bedingung auszudrücken. $f(x_{t-1}|a_t,a_{s<t},x_{s<(t-1)})$ $f(a_t, a_{s<t},x_{s<(t-1)})$
Etwas tatsächlich Kohärentes und Ehrliches bei der Verbreitung von Unsicherheit, an das ich offensichtlich nicht gedacht habe.
Bayes? Ich kenne Stan und JAGS, aber MCMC wird wahrscheinlich meinen Computer explodieren lassen (ich möchte mich nicht mit EC2 befassen).

Ich habe in der Literatur keine Hinweise gefunden, da multivariate Behandlungen in der kausalen Modellierung selten sind. Was sollte ich tun?

Bonuspunkte: Wie stehen Sie zu der Notation , die anstelle von so etwas wie ? $a_{s<t}$ $\{a_s\}_{s=0}^{t}$ $\vec{a}_{t-1}$

regression estimation nonparametric pdf causality Shadowtalker
quelle

Die Grundidee

Gemäß Chen, Linton und Robinson (2001) besteht die "Standard" -Technik für die bedingte univariate Kerneldichteschätzung darin, für die Bandbreiten , $a,b,c$

\frac{{\hat{f}}_{ein b} (y, z)}{{\hat{f}}_{c} (z)} = {\hat{f}}_{ein b c} (y | z)

$\frac{\hat{f}_{ab}(y,z)}{\hat{f}_c(z)}=\hat{f}_{abc}(y|z)$

Dann gilt mit der Zählerbandbreite und der Nennerbandbreite und das folgende zentrale Grenzergebnis unter bestimmten Unabhängigkeits- und Konsistenzannahmen (die nur dann wirklich einschränkend sind, wenn ): $(a,b)$ $c$ $a=b=c$ $y=x_t,z=x_{t-1}$

\sqrt{n {ein}^{2}} ({\hat{f}}_{ein b c = ein ein ein} (y | z) - - f (y | z)) \overset{d}{\to} N. (0, V.)

$\sqrt{na^2}\left(\hat{f}_{abc=aaa}(y|z)-f(y|z)\right)\xrightarrow{d}N(0,V)$

\begin{aligned} \hat{V.} & = {(\int K. (u)^{2} d u)}^{2} \cdot \frac{{\hat{f}}_{ein ein ein} (y | z)}{{\hat{f}}_{ein} (z)} \\ = {(\int K. (u)^{2} d u)}^{2} \cdot {\hat{f}}_{ein ein} (y, z) \end{aligned}

$\begin{align} \hat{V}&=\left(\int K(u)^2du\right)^2\cdot\frac{\hat{f}_{aaa}(y|z)}{\hat{f}_a(z)}\\&=\left(\int K(u)^2du\right)^2\cdot\hat{f}_{aa }(y,z) \end{align}$

Obwohl ich noch nie ein häufig gewichtetes Modell gesehen habe (sogar Intro-Statistiken WLS), versuche ich, die Varianz der geschätzten Gewichte zu berücksichtigen. Im Moment werde ich dieser Konvention folgen, aber wenn ich hier Ergebnisse erhalte, werde ich sehen, ob ich daraus ein vollständig bayesianisches Modell machen kann, das die Unsicherheit ehrlicher verbreitet. Ja, die Schätzung der bedingten Dichte durch Schätzung der Gelenk- und Randdichte ist ein Standardverfahren.

Anwendbarkeit auf meinen Fall

Aus diesem Papier geht nicht explizit hervor, wie sich dies auf den Fall verallgemeinert, wenn und und . Aber ich denke, das ist wirklich genau das Gleiche wie eine große lange Sequenz was nach Robinson (1983) (zitiert in Chen et al.) vollkommen handhabbar erscheint . Auch hier scheint die Verwendung der Bayes-Regel zur Schätzung der bedingten Dichte durchaus akzeptabel. $y=x_t$ $z=\left(x_s\right)_{s=1}^{t-1}$ $x_s=\left(\begin{smallmatrix} x_{s,1}\\ \ddots \\x_{s,D} \end{smallmatrix}\right)$ $x=\left(\left(x_{s,d}\right)_{d=1}^{D}\right)_{s=1}^{t-1}$

Bandbreite

Das letzte Problem ist die Bandbreitenauswahl. Die Bandbreite ist jetzt eine Blockmatrix der Form

B. = (\begin{matrix} {B.}^{n u m e r ein t Ö r} & 0 \\ 0 & {B.}^{d e n Ö m ich n ein t Ö r} \end{matrix}) = (\begin{matrix} (\begin{matrix} {ein}_{1, 1} & {B.}_{1}^{n u m} \\ ⋱ \\ {B.}_{2}^{n u m} & {ein}_{t, D.} \end{matrix}) & 0 \\ 0 & (\begin{matrix} c_{1, 1} & {B.}_{1}^{d e n Ö m} \\ ⋱ \\ {B.}_{2}^{d e n Ö m} & c_{t - - 1, D.} \end{matrix}) \end{matrix})

$B=\left(\begin{matrix} B^{numerator}&0\\0&B^{denominator} \end{matrix}\right)=\left(\begin{matrix} \left(\begin{matrix}a_{1,1}&&B^{num}_1\\&\ddots&\\B^{num}_2&&a_{t,D}\end{matrix}\right)&0\\0&\left(\begin{matrix}c_{1,1}&&B^{denom}_1\\&\ddots&\\B^{denom}_2&&c_{t-1,D}\end{matrix}\right) \end{matrix}\right)$

Das ist ein Chaos. Wenn die Bandbreite so dass , dann ist , aber dieses Ergebnis würde separat für und und nicht zu als Ganzes ( Quelle , Vorlesungsunterlagen von jemandem). $H=hH_0$ $|H_0|=1$ $b^*\sim\sqrt[4+D]{N}$ $B^{num}$ $B^{denom}$ $B$

Chen et al. Finden eine optimale Bandbreite (in ihrem 2D-Fall) für eine gegebene Ebene von , die so aussieht, als würde sie sich auf den Fall verallgemeinern, wenn und multivariat sind. Sie schlagen vor, wobei das theoretische Mittel ist, das unter Gelenknormalität induziert werden würde, und sie leiten . $a=b=c$ $z$ $y$ $z$ $z=\mu$ $\mu$ $\hat{a}(\mu)$

Eine allgemeinere Version desselben Ergebnisses befindet sich in einem anderen Abschnitt dieser Vorlesungsunterlagen, der als "Faustregel" -Bandbreite bezeichnet wird. Sie leiten auch eine optimale Bandbreite als Funktion eines allgemeinen Kreuzvalidierungsverfahrens ab.

Berechnung

Ich habe eine 7-dimensionale Behandlung über 3 Zeiträume, so dass ich bis zu einer 21-dimensionalen Dichte abschätzen kann. Und ich habe die Basiskovariaten vergessen. Ich habe ungefähr 30 Basiskovariaten, also würde ich am Ende versuchen, eine 51-dimensionale Verteilung, eine 44-dimensionale Verteilung und eine 37-dimensionale Verteilung zu schätzen. Und das ist nicht zu erwähnen, dass die extreme Dimensionalität eine unglaublich große Stichprobe erfordert. Scott & Wand (1991) berichten, dass eine Stichprobengröße von 50 in einer Dimension weit über 1 Million in 8 Dimensionen entspricht ... keine Erwähnung von 30. Keine Menge davon kann ausdrücken, wie ich mich gerade fühle.

Fazit

Also habe ich nur eine Woche meines Lebens damit verschwendet. Naja. Stattdessen werde ich MCMC verwenden, um parametrische Behandlungs- und Ergebnismodelle gleichzeitig anzupassen, sodass die IPT-Gewichte eine Funktion der posterioren Vorhersagedichten aus dem Behandlungsmodell sind. Dann gehe ich durch lineare, quadratische und kubische Formen für das Behandlungsmodell und finde heraus, welche am besten passt.

Shadowtalker
quelle

"Also habe ich nur eine Woche meines Lebens damit verschwendet." Das nennt man Lernen und Forschen. Als Meisterschüler sollten Sie das annehmen, denn es kommt noch mehr davon. In der Forschung gibt es normalerweise keine Abkürzungen, weil oft niemand den Weg kennt!

Momo