Ich versuche, die Schätzung der Kerneldichte besser zu verstehen.
Verwendung der Definition aus Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition
Nehmen wir als rechteckige Funktion, die ergibt, wenn zwischen und und andernfalls , und (Fenstergröße) als 1.1 x - 0,5 0,5 0 h
Ich verstehe, dass die Dichte eine Faltung von zwei Funktionen ist, aber ich bin nicht sicher, wie ich diese beiden Funktionen definieren soll. Eine davon sollte (wahrscheinlich) eine Funktion der Daten sein, die uns für jeden Punkt in R mitteilen, wie viele Datenpunkte wir an diesem Ort haben (meistens ). Und die andere Funktion sollte wahrscheinlich eine Modifikation der Kernelfunktion in Kombination mit der Fenstergröße sein. Aber ich bin nicht sicher, wie ich es definieren soll.
Irgendwelche Vorschläge?
Unten sehen Sie einen Beispiel-R-Code, der (vermutlich) die oben definierten Einstellungen (mit einer Mischung aus zwei Gaußschen und ) reproduziert. Ich hoffe, einen "Beweis" dafür zu sehen, dass die zu verschachtelnden Funktionen unseren Vorstellungen entsprechen .
# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)
quelle
Antworten:
Jedem Datenstapel seine "empirische Dichtefunktion"X= ( x1, x2, … , Xn)
Hier ist eine "verallgemeinerte Funktion". Trotz dieses Namens ist es überhaupt keine Funktion: Es ist ein neues mathematisches Objekt, das nur innerhalb von Integralen verwendet werden kann. Seine definierende Eigenschaft ist, dass für jede Funktion einer kompakten Unterstützung, die in einer Nachbarschaft von stetig ist ,δ G 0
(Die Bezeichnungen für umfassen "atomares" oder "Punkt" -Maß und " Dirac-Delta-Funktion ". In der folgenden Berechnung wird dieses Konzept erweitert, um Funktionen die nur von einer Seite stetig sind.)δ gg
Begründet wird diese Charakterisierung von die Beobachtung, dassfX
Dabei ist die übliche empirische CDF und die übliche charakteristische Funktion (gleich wenn das Argument wahr ist, und ansonsten ). (Ich überspringe ein elementares einschränkendes Argument, das erforderlich ist, um von Funktionen der kompakten Unterstützung zu Funktionen zu wechseln, die über . Da nur für Werte im Bereich von , ist dies kein Problem.)FX I 1 0 R I X
Die Faltung von mit einer anderen Funktion ist per Definition gegeben alsfX(x) k
Lässt man (das ist das gleiche wie für symmetrische Kerne - und die meisten Kerne sind symmetrisch), erhält man das behauptete Ergebnis: Die Wikipedia-Formel ist eine Faltung.k(x)=Kh(−x) Kh(x)
quelle