Wenn variable Kernelbreiten oft gut für die Kernelregression sind, warum sind sie im Allgemeinen nicht gut für die Schätzung der Kerneldichte?

Diese Frage wird an anderer Stelle diskutiert .

Variable Kernel werden häufig in der lokalen Regression verwendet. Zum Beispiel ist Löss weit verbreitet und eignet sich gut als Regressionsglätter. Es basiert auf einem Kernel mit variabler Breite, der sich an die Datensparsität anpasst.

Andererseits wird angenommen, dass variable Kernel zu schlechten Schätzern bei der Schätzung der Kerneldichte führen (siehe Terrell und Scott, 1992 ).

Gibt es einen intuitiven Grund, warum sie sich gut für die Regression eignen, nicht aber für die Dichteschätzung?

nonparametric smoothing kernel-smoothing loess Rob Hyndman
quelle

Sie haben geschrieben: "Auf der anderen Seite wird angenommen, dass variable Kernel zu schlechten Schätzern bei der Schätzung der Kerneldichte führen". Was ist der Teil des Papiers, den Sie erwähnen, der Sie dazu bringt, das zu glauben? Ich habe viele Referenzen, die in die andere Richtung gehen, siehe zum Beispiel die in diesem Artikel erwähnten Referenzen: arxiv.org/PS_cache/arxiv/pdf/1009/1009.1016v1.pdf

robin girard

Die Zusammenfassung von Terrell und Scott fasst es gut zusammen: "Schätzer für die nächsten Nachbarn in allen Versionen weisen in einer und zwei Dimensionen eine schlechte Leistung auf". Sie scheinen nur bei der multivariaten Dichteschätzung einen großen Vorteil zu haben.

Rob Hyndman

"Nächster Nachbar" ist nicht der einzige variable Kernel. In den genannten Artikeln wird ein anderes Tool verwendet, beispielsweise der Algorithmus von Lepskii. Ich werde die AOS-Abhandlung lesen, aber da die Leistung des nächsten Nachbarn mit der Dimension abnehmen sollte, fand ich es seltsam, dass das Erhöhen der Dimension einem "sehr nicht parametrischen" Schätzer Vorteile bringt (wenn wir zugeben, dass konstante Bandbreite weniger nicht parametrisch ist als variierende Bandbreite). In dieser Art von Situation bestimmt der häufig verwendete Bewertungsfall die Ergebnisse ...

robin girard

@Robin Girard:> * fand es seltsam, dass eine Vergrößerung der Dimension einem "sehr nicht parametrischen" Schätzer Vorteile bringt (wenn wir zugeben, dass konstante Bandbreite nicht parametrischer ist als die Bandbreite zu variieren) * Gibt es einen Tippfehler in diesem Satz? Ansonsten scheinen Sie den Autoren zumindest auf einer intuitiven Ebene zuzustimmen. Danke zu bestätigen / korrigieren.

User603

@kwak danke, das zu bemerken! Dies ist ein Tippfehler: Ich wollte sagen, konstante Bandbreite ist weniger NP ... Ich kann meinen Kommentar nicht ändern :( Entschuldigung.

Robin Girard

Antworten:

Anscheinend gibt es hier zwei verschiedene Fragen, die ich aufteilen möchte:

1) Wie unterscheidet sich KS, Kernel Smoothing, von KDE, Kernel Density Estimation? Sagen wir, ich habe einen Schätzer / Glatter / Interpolator

est( xi, fi -> gridj, estj )

und auch zufällig die "echte" Dichte f () am xi kennen. Dann est( x, densityf ) muss running eine Schätzung von densityf () geben: a KDE. Es kann durchaus sein, dass KSs und KDEs unterschiedlich bewertet werden - unterschiedliche Glättungskriterien, unterschiedliche Normen -, aber ich sehe keinen grundsätzlichen Unterschied. Was vermisse ich ?

2) Wie wirkt sich die Bemaßung intuitiv auf die Schätzung oder Glättung aus ? Ist hier ein Spielzeugbeispiel, gerade um Intuition zu helfen. Betrachten Sie ein Kästchen mit N = 10000 Punkten in einem einheitlichen Raster und ein Fenster, eine Linie oder ein Quadrat oder ein Würfel mit W = 64 Punkten darin:

                1d          2d          3d          4d
---------------------------------------------------------------
data            10000       100x100     22x22x22    10x10x10x10
side            10000       100         22          10
window          64          8x8         4x4x4       2.8^4
side ratio      .64 %       8 %         19 %        28 %
dist to win     5000        47          13          7

Hier ist "Seitenverhältnis" Fensterseite / Kastenseite, und "dist to win" ist eine grobe Schätzung der mittleren Entfernung eines zufälligen Punkts in der Box zu einem zufällig platzierten Fenster.

Ergibt das überhaupt einen Sinn? (Ein Bild oder Applet würde wirklich helfen: jemand?)

Die Idee ist, dass ein Fenster mit fester Größe in einer Box mit fester Größe eine sehr unterschiedliche Nähe zum Rest der Box aufweist, in 1d 2d 3d 4d. Dies ist für ein einheitliches Raster; vielleicht überträgt sich die starke Abhängigkeit von der Dimension auf andere Distributionen, vielleicht auch nicht. Wie auch immer, es scheint ein starker allgemeiner Effekt zu sein, ein Aspekt des Fluches der Dimensionalität.

denis
quelle

Kerndichteschätzung bedeutet Integration über ein lokales (Fuzzy-) Fenster, und Kernel-Glättung bedeutet Mittelung über ein lokales (Fuzzy-) Fenster.

$\tilde y(x) \propto \frac 1 {\rho(x)} \sum K(||x-x_i||)\,y_i$ .

$\rho(x) \propto \sum K(||x-x_i||)$ .

Wie sind diese gleich?

Betrachten Sie Stichproben einer Booleschen Funktion, dh eine Menge, die sowohl "wahre Stichproben" (jeweils mit Einheitswert) als auch "falsche Stichproben" (jeweils mit Nullwert) enthält. Unter der Annahme, dass die Gesamtdichte der Stichprobe konstant ist (wie ein Gitter), ist der lokale Durchschnitt dieser Funktion identisch proportional zur lokalen (Teil-) Dichte der wahrwertigen Teilmenge. (Die falschen Stichproben ermöglichen es uns, den Nenner der Glättungsgleichung ständig zu ignorieren, während der Summation Nullterme hinzugefügt werden, so dass die Dichteschätzungsgleichung vereinfacht wird.)

Wenn Ihre Samples in einem Booleschen Raster als spärliche Elemente dargestellt würden, könnten Sie ihre Dichte schätzen, indem Sie einen Unschärfefilter auf das Raster anwenden.

Wie unterscheiden sich diese?

Intuitiv können Sie davon ausgehen, dass die Wahl des Glättungsalgorithmus davon abhängt, ob die Stichprobenmessungen einen signifikanten Messfehler enthalten oder nicht.

In einem Extremfall (kein Rauschen) müssen Sie lediglich zwischen den genau bekannten Werten an den Probenorten interpolieren. Sprich durch Delaunay-Triangulation (mit bilinearer stückweiser Interpolation).

Die Dichteschätzung ähnelt dem entgegengesetzten Extrem, es handelt sich ausschließlich um Rauschen, da die isolierte Probe nicht von einer Messung des Dichtewerts an diesem Punkt begleitet wird. (Es gibt also nichts, was man einfach interpolieren könnte. Sie könnten in Erwägung ziehen, Voronoi-Diagramm-Zellbereiche zu messen, aber das Glätten / Entrauschen wird weiterhin wichtig sein.)

Der Punkt ist, dass dies trotz der Ähnlichkeit grundsätzlich unterschiedliche Probleme sind, so dass unterschiedliche Ansätze optimal sein können.

benjimin
quelle