Diese Frage wird an anderer Stelle diskutiert .
Variable Kernel werden häufig in der lokalen Regression verwendet. Zum Beispiel ist Löss weit verbreitet und eignet sich gut als Regressionsglätter. Es basiert auf einem Kernel mit variabler Breite, der sich an die Datensparsität anpasst.
Andererseits wird angenommen, dass variable Kernel zu schlechten Schätzern bei der Schätzung der Kerneldichte führen (siehe Terrell und Scott, 1992 ).
Gibt es einen intuitiven Grund, warum sie sich gut für die Regression eignen, nicht aber für die Dichteschätzung?
nonparametric
smoothing
kernel-smoothing
loess
Rob Hyndman
quelle
quelle
Antworten:
Anscheinend gibt es hier zwei verschiedene Fragen, die ich aufteilen möchte:
1) Wie unterscheidet sich KS, Kernel Smoothing, von KDE, Kernel Density Estimation? Sagen wir, ich habe einen Schätzer / Glatter / Interpolator
und auch zufällig die "echte" Dichte f () am xi kennen. Dann
est( x, densityf )
muss running eine Schätzung von densityf () geben: a KDE. Es kann durchaus sein, dass KSs und KDEs unterschiedlich bewertet werden - unterschiedliche Glättungskriterien, unterschiedliche Normen -, aber ich sehe keinen grundsätzlichen Unterschied. Was vermisse ich ?2) Wie wirkt sich die Bemaßung intuitiv auf die Schätzung oder Glättung aus ? Ist hier ein Spielzeugbeispiel, gerade um Intuition zu helfen. Betrachten Sie ein Kästchen mit N = 10000 Punkten in einem einheitlichen Raster und ein Fenster, eine Linie oder ein Quadrat oder ein Würfel mit W = 64 Punkten darin:
Hier ist "Seitenverhältnis" Fensterseite / Kastenseite, und "dist to win" ist eine grobe Schätzung der mittleren Entfernung eines zufälligen Punkts in der Box zu einem zufällig platzierten Fenster.
Ergibt das überhaupt einen Sinn? (Ein Bild oder Applet würde wirklich helfen: jemand?)
Die Idee ist, dass ein Fenster mit fester Größe in einer Box mit fester Größe eine sehr unterschiedliche Nähe zum Rest der Box aufweist, in 1d 2d 3d 4d. Dies ist für ein einheitliches Raster; vielleicht überträgt sich die starke Abhängigkeit von der Dimension auf andere Distributionen, vielleicht auch nicht. Wie auch immer, es scheint ein starker allgemeiner Effekt zu sein, ein Aspekt des Fluches der Dimensionalität.
quelle
Kerndichteschätzung bedeutet Integration über ein lokales (Fuzzy-) Fenster, und Kernel-Glättung bedeutet Mittelung über ein lokales (Fuzzy-) Fenster.
Wie sind diese gleich?
Betrachten Sie Stichproben einer Booleschen Funktion, dh eine Menge, die sowohl "wahre Stichproben" (jeweils mit Einheitswert) als auch "falsche Stichproben" (jeweils mit Nullwert) enthält. Unter der Annahme, dass die Gesamtdichte der Stichprobe konstant ist (wie ein Gitter), ist der lokale Durchschnitt dieser Funktion identisch proportional zur lokalen (Teil-) Dichte der wahrwertigen Teilmenge. (Die falschen Stichproben ermöglichen es uns, den Nenner der Glättungsgleichung ständig zu ignorieren, während der Summation Nullterme hinzugefügt werden, so dass die Dichteschätzungsgleichung vereinfacht wird.)
Wenn Ihre Samples in einem Booleschen Raster als spärliche Elemente dargestellt würden, könnten Sie ihre Dichte schätzen, indem Sie einen Unschärfefilter auf das Raster anwenden.
Wie unterscheiden sich diese?
Intuitiv können Sie davon ausgehen, dass die Wahl des Glättungsalgorithmus davon abhängt, ob die Stichprobenmessungen einen signifikanten Messfehler enthalten oder nicht.
In einem Extremfall (kein Rauschen) müssen Sie lediglich zwischen den genau bekannten Werten an den Probenorten interpolieren. Sprich durch Delaunay-Triangulation (mit bilinearer stückweiser Interpolation).
Die Dichteschätzung ähnelt dem entgegengesetzten Extrem, es handelt sich ausschließlich um Rauschen, da die isolierte Probe nicht von einer Messung des Dichtewerts an diesem Punkt begleitet wird. (Es gibt also nichts, was man einfach interpolieren könnte. Sie könnten in Erwägung ziehen, Voronoi-Diagramm-Zellbereiche zu messen, aber das Glätten / Entrauschen wird weiterhin wichtig sein.)
Der Punkt ist, dass dies trotz der Ähnlichkeit grundsätzlich unterschiedliche Probleme sind, so dass unterschiedliche Ansätze optimal sein können.
quelle