"Kernel Density Estimation" ist eine Faltung von was?

25

Ich versuche, die Schätzung der Kerneldichte besser zu verstehen.

Verwendung der Definition aus Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition

fh^(x)=1ni=1nKh(xxi)=1nhi=1nK(xxih)

Nehmen wir als rechteckige Funktion, die ergibt, wenn zwischen und und andernfalls , und (Fenstergröße) als 1.1 x - 0,5 0,5 0 hK()1x0.50.50h

Ich verstehe, dass die Dichte eine Faltung von zwei Funktionen ist, aber ich bin nicht sicher, wie ich diese beiden Funktionen definieren soll. Eine davon sollte (wahrscheinlich) eine Funktion der Daten sein, die uns für jeden Punkt in R mitteilen, wie viele Datenpunkte wir an diesem Ort haben (meistens ). Und die andere Funktion sollte wahrscheinlich eine Modifikation der Kernelfunktion in Kombination mit der Fenstergröße sein. Aber ich bin nicht sicher, wie ich es definieren soll.0

Irgendwelche Vorschläge?

Unten sehen Sie einen Beispiel-R-Code, der (vermutlich) die oben definierten Einstellungen (mit einer Mischung aus zwei Gaußschen und ) reproduziert. Ich hoffe, einen "Beweis" dafür zu sehen, dass die zu verschachtelnden Funktionen unseren Vorstellungen entsprechen .n=100

# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)

Bildbeschreibung hier eingeben

Tal Galili
quelle
3
Ihr Teppich unten gibt eine grobe Anschauung. Stellen Sie sich vor, jeder Wert von bis ist eine Spitze mit einem zugehörigen Gewicht von . Schmiere nun jeden Dorn mit der Form und Breite deines Kernels, so dass der Dorn die gleiche Form und Breite annimmt, mit einer solchen Höhe, dass der Bereich darunter beträgt . Addieren Sie die Ergebnisse und Sie haben eine Schätzung der Kerneldichte. i = 1 n 1 / n 1 / nxii=1n1/n1/n
Nick Cox
Hallo Nick, danke für den Kommentar. Diese weit in der Anschauung ich schon habe, ist es das Drehen sie förmlich in die Form der Faltung , die ich neugierig war zu sehen :) (ich gespannt bin jetzt durch Whuber Antwort gehen!)
Tal Galili

Antworten:

27

Jedem Datenstapel seine "empirische Dichtefunktion"X=(x1,x2,,xn)

fX(x)=1ni=1nδ(xxi).

Hier ist eine "verallgemeinerte Funktion". Trotz dieses Namens ist es überhaupt keine Funktion: Es ist ein neues mathematisches Objekt, das nur innerhalb von Integralen verwendet werden kann. Seine definierende Eigenschaft ist, dass für jede Funktion einer kompakten Unterstützung, die in einer Nachbarschaft von stetig ist ,δg0

Rδ(x)g(x)dx=g(0).

(Die Bezeichnungen für umfassen "atomares" oder "Punkt" -Maß und " Dirac-Delta-Funktion ". In der folgenden Berechnung wird dieses Konzept erweitert, um Funktionen die nur von einer Seite stetig sind.)δgg

Begründet wird diese Charakterisierung von die Beobachtung, dassfX

xfX(y)dy=x1ni=1nδ(yxi)dy=1ni=1nxδ(yxi)dy=1ni=1nRI(yx)δ(yxi)dy=1ni=1nI(xix)=FX(x)

Dabei ist die übliche empirische CDF und die übliche charakteristische Funktion (gleich wenn das Argument wahr ist, und ansonsten ). (Ich überspringe ein elementares einschränkendes Argument, das erforderlich ist, um von Funktionen der kompakten Unterstützung zu Funktionen zu wechseln, die über . Da nur für Werte im Bereich von , ist dies kein Problem.)FXI10RIX

Die Faltung von mit einer anderen Funktion ist per Definition gegeben alsfX(x)k

(fXk)(x)=RfX(xy)k(y)dy=R1ni=1nδ(xyxi)k(y)dy=1ni=1nRδ(xyxi)k(y)dy=1ni=1nk(xix).

Lässt man (das ist das gleiche wie für symmetrische Kerne - und die meisten Kerne sind symmetrisch), erhält man das behauptete Ergebnis: Die Wikipedia-Formel ist eine Faltung.k(x)=Kh(x)Kh(x)

whuber
quelle
1
Die Situation in zwei Dimensionen wird (umgangssprachlicher) erklärt und auf der GIS-Website unter gis.stackexchange.com/questions/14374/… dargestellt .
whuber
1
Lieber Whuber, ich habe gerade Ihre Antwort mit Freude gelesen! Vielen Dank für die Erklärung und Details, Ihre Antworten (diese und Ihre anderen im Allgemeinen) sind wirklich inspirierend. Mit freundlichen Grüßen Tal
Tal Galili
1
@Jan Dein Verständnis ist nicht ganz richtig. Es gibt keine empirische "Dichte" im Sinne eines endlichen kontinuierlichen Maßes. Die Indikatorfunktion der Daten wird auf Null integriert (ob Sie die Lebesgue-Integration oder die Riemann-Integration verwenden, spielt keine Rolle). Die verallgemeinerte Funktion ist überhaupt keine Funktion: Sie ist ein neues mathematisches Objekt, das nur innerhalb von Integralen verwendet werden kann. Die empirische Verteilung ist ein mathematisches Objekt, das bei Integration mit einer integrierbaren Funktion die Summe (über alle Daten ) der Werte zurückgibtg , x i g ( x i ) .δg,xig(xi).
whuber
1
@whuber Danke. Der Satz Die verallgemeinerte Funktion δ ist überhaupt keine Funktion: Sie ist ein neues mathematisches Objekt, das nur innerhalb von Integralen verwendet werden kann. machte es klarer. auf den Punkt wie immer. ;)
Jan Vainer
1
@Jan Danke für Ihre Hilfe: Ich habe diese Idee in diese Antwort aufgenommen.
whuber