Aus Kernel-Dichteschätzung simulieren (empirisches PDF)

8

Ich habe einen Vektor Xvon N=900Beobachtungen, die am besten mit einem globalen Bandbreitenkerndichteschätzer modelliert werden können (parametrische Modelle, einschließlich dynamischer Mischungsmodelle, erwiesen sich als nicht gut passend):

Geben Sie hier die Bildbeschreibung ein

Jetzt möchte ich von diesem KDE aus simulieren. Ich weiß, dass dies durch Bootstrapping erreicht werden kann.

In R kommt es auf diese einfache Codezeile an (die fast Pseudocode ist): x.sim = mean(X) + { sample(X, replace = TRUE) - mean(X) + bw * rnorm(N) } / sqrt{ 1 + bw^2 * varkern/var(X) }Hier wird der geglättete Bootstrap mit Varianzkorrektur implementiert und varkerndie Varianz der ausgewählten Kernelfunktion (z. B. 1 für einen Gaußschen Kernel).

Was wir mit 500 Wiederholungen bekommen, ist das Folgende:

Geben Sie hier die Bildbeschreibung ein

Es funktioniert, aber es fällt mir schwer zu verstehen, wie das Mischen von Beobachtungen (mit etwas zusätzlichem Rauschen) dasselbe ist wie das Simulieren aus einer Wahrscheinlichkeitsverteilung? (die Verteilung ist hier die KDE), wie bei Standard Monte Carlo. Ist Bootstrapping außerdem die einzige Möglichkeit, von einem KDE aus zu simulieren?

BEARBEITEN: Weitere Informationen zum geglätteten Bootstrap mit Varianzkorrektur finden Sie in meiner Antwort unten.

Antoine
quelle
1
Das Bootstrap-Experiment gibt Ihnen einen Hinweis auf die Variabilität der Kernel-Dichteschätzung. Dies hat nichts mit der Simulation aus dem Kernel zu tun, wie Dougal weiter unten erklärt.
Xi'an
Ja, das ist eine gewisse Variabilität. Denken Sie, dass ein KDE hier ein besserer Ansatz wäre als ein dynamisches Mischungsmodell?
Antoine
Ich verstehe also, dass der oben gezeigte reibungslose Bootstrap nicht der Simulation vom Kernel entspricht. Es erreicht jedoch das gleiche Ziel: Simulation aus dem empirischen PDF, richtig? Ich werde versuchen, die Ergebnisse der von Douglas vorgeschlagenen Strategie (direkt vom KDE simuliert) zu veröffentlichen, um zu vergleichen, wann ich Zeit habe.
Antoine
Das Simulieren mit dem Kernel-Schätzer führt nicht zu Simulationen mit dem empirischen PDF, und es gibt keine klare Definition eines empirischen PDF zwischen Histogrammen und Kernel-Schätzungen, die alle eine Kalibrierung einer Bandbreite erfordern.
Xi'an
Ich bin mit Ihrem ersten Kommentar nicht einverstanden, siehe meine Antwort unten.
Antoine

Antworten:

10

f(x)=1Ni=1Nfi(x)

  • i
  • fi

Es sollte klar sein, dass dies eine genaue Probe ergibt.

1Ni=1NN(x;xi,h2)Nxih2

xi

  • xiμ^+xiμ^1+h2/σ^2
  • h21+h2/σ^2=11h2+1σ^2h2σ2

1Ni=1Nxi1+h2/σ^2+μ^11+h2/σ^2μ^=μ^
μ^=1Ni=1Nxi

Ich denke jedoch nicht, dass die Verteilung der Stichproben gleich ist.

Dougal
quelle
Danke für diese nette Antwort. Ich untersuche derzeit diesen Ansatz. Würdest du dir bitte diesen anderen sehr aktuellen (und etwas verwandten) Thread ansehen ? Danke im Voraus.
Antoine
3

Um Verwirrung darüber zu vermeiden, ob es möglich ist, mithilfe eines Bootstrap-Ansatzes Werte aus dem KDE zu ziehen oder nicht, ist dies möglich . Der Bootstrap ist nicht auf das Schätzen von Variabilitätsintervallen beschränkt.

YisKhy^y^

Y{X1,...Xn}

  • i{1,...,n}
  • ϵKK
  • Y=X¯+(XiX¯+h.ϵ)/1+h2σK2/σX2

X¯σX2σK2KKX¯σX2Y=Xi+h.ϵ

Das R-Code-Snippet in meiner obigen Frage folgt genau diesem Algorithmus.

Die Vorteile des geglätteten Bootstraps gegenüber dem Bootstrap sind:

  • "Störmerkmale" in den Daten werden nicht reproduziert, da andere Werte als die in der Probe erzeugten erzeugt werden können.
  • Werte jenseits der max / min der Beobachtungen können erzeugt werden.
Antoine
quelle