Können Sie die Dichteschätzung des Parzen-Fensters (Kernel) in Laienbegriffen erklären?

24

Die Schätzung der Parzen-Fensterdichte wird als beschrieben

p (x) = \frac{1}{n} \sum_{i = 1}^{n} \frac{1}{h^{2}} ϕ (\frac{x_{i} - x}{h})

$p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right)$

wobei $n$ die Anzahl der Elemente im Vektor ist, ein Vektor ist, eine Wahrscheinlichkeitsdichte von , die Dimension des Parzen-Fensters ist und eine Fensterfunktion ist. $x$ $p(x)$ $x$ $h$ $\phi$

Meine Fragen sind:

Was ist der grundlegende Unterschied zwischen einer Parzen-Fensterfunktion und anderen Dichtefunktionen wie der Gauß-Funktion und so weiter?
Welche Rolle spielt die Fensterfunktion ( ) beim Ermitteln der Dichte von ? $\phi$ $x$
Warum können wir andere Dichtefunktionen anstelle der Fensterfunktion anschließen?
Was ist die Rolle von $h$ beim Ermitteln der Dichte von ? $x$

pdf kernel-smoothing intuition density-estimation user366312
quelle

44

Die Schätzung der Parzen-Fensterdichte ist ein anderer Name für die Kernel-Dichteschätzung . Es ist eine nichtparametrische Methode zur Schätzung der kontinuierlichen Dichtefunktion aus den Daten.

Stellen Sie sich vor, Sie haben einige Datenpunkte $x_1,\dots,x_n$ , die von einer gemeinsamen unbekannten, vermutlich kontinuierlichen Verteilung stammen. $f$ . Sie möchten die Verteilung anhand Ihrer Daten schätzen. Eine Sache, die Sie tun könnten, ist einfach, die empirische Verteilung zu betrachten und sie als Beispieläquivalent der wahren Verteilung zu behandeln. Wenn Ihre Daten jedoch kontinuierlich sind, sehen Sie höchstwahrscheinlich jedes $x_i$ Der Punkt wird nur einmal im Datensatz angezeigt. Auf dieser Grundlage können Sie also den Schluss ziehen, dass Ihre Daten aus einer gleichmäßigen Verteilung stammen, da jeder der Werte die gleiche Wahrscheinlichkeit hat. Hoffentlich können Sie dies besser machen: Sie können Ihre Daten in einer Reihe von Intervallen mit gleichem Abstand packen und die Werte zählen, die in jedes Intervall fallen. Diese Methode würde auf der Schätzung des Histogramms beruhen . Leider haben Sie mit dem Histogramm eher eine Anzahl von Behältern als eine kontinuierliche Verteilung. Dies ist also nur eine grobe Annäherung.

Die Kerndichteschätzung ist die dritte Alternative. Die Hauptidee ist, dass Sie $f$ durch eine Mischung von kontinuierlichen Verteilungen $K$ (unter Verwendung Ihrer Notation $\phi$ ), Kernel genannt , approximieren , die bei $x_i$ Datenpunkten zentriert sind und eine Skalierung ( Bandbreite ) von $h$ :

\hat{f_{h}} (x) = \frac{1}{n h} \sum_{i = 1}^{n} K (\frac{x - x_{i}}{h})

$\hat{f_h}(x) = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big)$

Dies ist in der folgenden Abbildung dargestellt, in der die Normalverteilung als Kernel $K$ und unterschiedliche Werte für die Bandbreite $h$ verwendet werden, um die Verteilung bei den sieben Datenpunkten zu schätzen (gekennzeichnet durch die farbigen Linien oben in den Plots). Die Farbdichten auf den Plots sind Kernel, die an $x_i$ Punkten zentriert sind . Beachten Sie, dass $h$ ein relativer Parameter ist. Der Wert wird immer in Abhängigkeit von Ihren Daten und dem gleichen Wert von $h$ möglicherweise nicht für alle Datensätze zu ähnlichen Ergebnissen führt.

Kernel $K$ kann als Wahrscheinlichkeitsdichtefunktion betrachtet werden und muss zu einer Einheit integriert werden. Es muss auch symmetrisch sein, damit $K(x) = K(-x)$ und, was folgt, bei Null zentriert ist. Der Wikipedia-Artikel über Kernel listet viele beliebte Kernel auf, wie Gauß (Normalverteilung), Epanechnikov, Rechteck (Gleichverteilung) usw. Grundsätzlich kann jede Distribution, die diese Anforderungen erfüllt, als Kernel verwendet werden.

Offensichtlich wird die endgültige Schätzung von Ihrer Wahl des Kernels (aber nicht so sehr) und vom Bandbreitenparameter abhängen $h$ . Der folgende Thread Wie wird der Bandbreitenwert in einer Kerneldichteschätzung interpretiert? beschreibt die Verwendung von Bandbreitenparametern detaillierter.

Wenn Sie dies im Klartext sagen, nehmen Sie hier an, dass die beobachteten Punkte $x_i$ nur eine Stichprobe sind und einer zu schätzenden Verteilung $f$ folgen . Da die Verteilung stetig ist, nehmen wir an, dass es eine unbekannte Dichte ungleich Null in der Nähe von $x_i$ -Punkten gibt (die Nachbarschaft wird durch Parameter $h$ definiert ), und wir verwenden die Kerne $K$ , um dies zu erklären. Je mehr Punkte sich in einer Nachbarschaft befinden, desto mehr Dichte sammelt sich in dieser Region an und desto höher ist die Gesamtdichte von $\hat{f_h}$ . Die resultierende Funktion $\hat{f_h}$ kann nun für jede ausgewertet werdenPunkt $x$ .(ohne Index) Um eine Dichteschätzung zu erhalten, haben wir auf diese Weise die Funktion $\hat{f_h}(x)$ , die eine Approximation der unbekannten Dichtefunktion $f(x)$

Das Schöne an Kerneldichten ist, dass sie nicht wie Histogramme kontinuierliche Funktionen sind und selbst gültige Wahrscheinlichkeitsdichten sind, da sie eine Mischung aus gültigen Wahrscheinlichkeitsdichten sind. In vielen Fällen ist dies so nahe wie möglich an $f$ .

Der Unterschied zwischen der Kerneldichte und anderen Dichten als Normalverteilung besteht darin, dass "gewöhnliche" Dichten mathematische Funktionen sind, während die Kerneldichte eine Annäherung an die anhand Ihrer Daten geschätzte wahre Dichte darstellt, sodass es sich nicht um "eigenständige" Verteilungen handelt.

Ich würde Ihnen die beiden schönen Einführungsbücher zu diesem Thema von Silverman (1986) und Wand and Jones (1995) empfehlen.

Silverman, BW (1986). Dichteschätzung für Statistik und Datenanalyse. CRC / Chapman & Hall.

Wand, MP und Jones, MC (1995). Kernel-Glättung. London: Chapman & Hall / CRC.

Tim
quelle

x

$x$

x_{i}

$x_i$

x

$x$

1

@anonymous Ich habe am Ende des Abschnitts "Sagen Sie dies in einfachem Englisch ..." eine Bearbeitung hinzugefügt, die auf Ihre Frage im Kommentar verweist.

Tim

4

$\phi$ , und dass die Gaußsche Funktion eine sehr häufige Wahl ist.

$x$ $\phi_h(x_i - x)$ $x$ $x_1=1$ $x_2 = 2$ $\sigma=1$ $\phi_h$ $x$ $\frac{\mathcal{N}_{1, 1}(x) + \mathcal{N}_{2, 1}(x)}{2}$ .

3) Sie können jede beliebige Dichtefunktion als Fensterfunktion einstecken.

$h$

David J. Harris
quelle

Können Sie die Dichteschätzung des Parzen-Fensters (Kernel) in Laienbegriffen erklären?

Antworten: