Schätzung der Kerndichte unter Berücksichtigung von Unsicherheiten

12

Bei der Visualisierung eindimensionaler Daten wird häufig die Kernel Density Estimation-Technik verwendet, um falsch gewählte Behälterbreiten zu berücksichtigen.

Gibt es eine Standardmethode zum Einbeziehen dieser Informationen, wenn mein eindimensionaler Datensatz Messunsicherheiten aufweist?

Zum Beispiel (und verzeihen Sie mir, wenn ich kein Verständnis dafür habe), faltet KDE ein Gauß-Profil mit den Delta-Funktionen der Beobachtungen. Dieser Gaußsche Kern wird von jedem Ort gemeinsam genutzt, aber der Gaußsche Parameter könnte variiert werden, um die Messunsicherheiten zu berücksichtigen. Gibt es eine Standardmethode, um dies durchzuführen? Ich hoffe, unsichere Werte mit breiten Kernen wiedergeben zu können.σ

Ich habe dies einfach in Python implementiert, kenne jedoch keine Standardmethode oder -funktion, um dies durchzuführen. Gibt es irgendwelche Probleme bei dieser Technik? Ich stelle fest, dass es einige seltsam aussehende Grafiken gibt! Beispielsweise

KDE-Vergleich

In diesem Fall sind die niedrigen Werte mit größeren Unsicherheiten behaftet, sodass häufig breite, flache Kernel erzeugt werden, wohingegen KDE die niedrigen (und unsicheren) Werte überbewertet.

Simon Walker
quelle
Wollen Sie damit sagen, dass die roten Kurven die Gaußschen mit variabler Breite und die grüne Kurve ihre Summe sind? (Das sieht aus diesen Grafiken nicht plausibel aus.)
whuber
Wissen Sie, was Messfehler für jede Beobachtung ist?
Aksakal
@wobei die roten Kurven die Gaußschen mit variabler Breite sind und die blaue Kurve ihre Summe ist. Die grüne Kurve ist der KDE mit einer konstanten Breite, sorry für die Verwirrung
Simon Walker
@Aksakal ja, jede Messung hat eine andere Unsicherheit
Simon Walker
Ein Nebenthema, aber es ist keine Definition der Schätzung der Kerneldichte, dass Sie Gaußsche Kernel verwenden. Sie können jeden Kernel verwenden, den Sie gerne in 1 integrieren, obwohl einige Kernel sinnvoller oder nützlicher sind als andere ....
Nick Cox

Antworten:

6

Es ist sinnvoll, die Breiten zu variieren, aber nicht unbedingt die Kernelbreite an die Unsicherheit anzupassen.

Berücksichtigen Sie den Zweck der Bandbreite, wenn Sie mit Zufallsvariablen arbeiten, für die die Beobachtungen im Wesentlichen keine Unsicherheit aufweisen (dh wo Sie sie nahe genug genau beobachten können) - auch wenn kde keine Bandbreite von Null verwendet, da die Bandbreite sich auf bezieht Variabilität in der Verteilung und nicht die Unsicherheit in der Beobachtung (dh Variabilität zwischen Beobachtungen, nicht Unsicherheit innerhalb der Beobachtung).

Was Sie haben, ist im Wesentlichen eine zusätzliche Variationsquelle (gegenüber dem Fall „Keine Beobachtungsunsicherheit“), die für jede Beobachtung unterschiedlich ist.

σi

Eine alternative Möglichkeit, das Problem zu betrachten, besteht darin, jede Beobachtung wie einen kleinen Kernel zu behandeln (wie Sie es getan haben, der angibt, wo sich die Beobachtung befunden hat), aber den üblichen (kde-) Kernel zu falten (normalerweise mit fester Breite, aber muss nicht) mit dem Beobachtungs-Unsicherheits-Kernel sein und dann eine kombinierte Dichteschätzung durchführen. (Ich glaube, das ist eigentlich das gleiche Ergebnis wie das, was ich oben vorgeschlagen habe.)

Glen_b - Setzen Sie Monica wieder ein
quelle
2

Ich würde den Kernel-Dichteschätzer mit variabler Bandbreite anwenden, z. B. versuchen lokale Bandbreitenselektoren für das Dekonvolutions-Kernel-Dichteschätzungspapier , das adaptive Fenster KDE zu erstellen, wenn die Messfehlerverteilung bekannt ist. Sie haben angegeben, dass Sie die Fehlervarianz kennen, daher sollte dieser Ansatz in Ihrem Fall anwendbar sein. Hier ist ein weiteres Papier über einen ähnlichen Ansatz mit einer kontaminierten Probe: BOOTSTRAP BANDWIDTH SELECTION IN KERNEL DENSITY ESTIMATION AUS EINER KONTAMINIERTEN PROBE

Aksakal
quelle
Ihr erster Link führt mich zu ms.unimelb.edu.au . Es ist nicht das Papier. Ich denke du meinst link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro
Diese Lösungen sehen toll aus! Kennen Sie einen Code, der diese implementiert?
Adi Ro
@AdiRo, ich habe den defekten Link behoben. Ich habe den Code nicht
Aksakal
0

Vielleicht möchten Sie Kapitel 6 in "Multivariate Dichteschätzung: Theorie, Praxis und Visualisierung" von David W. Scott, 1992, Wiley, konsultieren.

h=(4/3)1/5σn1/5(6.17)
σnhσ

f^(x)=1nhi=1nK(xxih)
K()
user29652
quelle
0

Ich denke, die von Ihnen vorgeschlagene Methode heißt Probability Density Plot (PDP), wie sie in der Geowissenschaft weit verbreitet ist. Eine Veröffentlichung finden Sie hier: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Es gibt jedoch Nachteile, wie oben erwähnt. Wenn zum Beispiel die gemessenen Fehler klein sind, gibt es Spitzen in der PDF-Datei, die Sie am Ende erhalten. Man kann die PDP aber auch wie in KDE glätten, so wie es @ Glen_b ♦ erwähnt hat

CyTex
quelle