Ich habe mir gerade eine nette (nicht unbedingt gute) Methode ausgedacht, um eindimensionale Dichteschätzungen zu erstellen, und meine Frage lautet:
Hat diese Dichteschätzmethode einen Namen? Wenn nicht, handelt es sich um einen Sonderfall einer anderen Methode in der Literatur?
Hier ist die Methode: Wir haben ein Vektor dem wir annehmen, dass es aus einer unbekannten Verteilung stammt, die wir schätzen möchten. Eine Möglichkeit, dies zu tun, besteht darin, alle möglichen Wertepaare in und für jedes Paar eine Normalverteilung mit maximaler Wahrscheinlichkeit anzupassen. Die resultierende Dichteschätzung ist dann die Mischungsverteilung, die aus allen resultierenden Normalen besteht, wobei jede Normale gleich gewichtet wird.
Die folgende Abbildung zeigt die Verwendung dieser Methode auf dem Vektor . Hier sind die Kreise die Datenpunkte, die farbigen Normalen die mit jedem möglichen Paar geschätzten maximalen Wahrscheinlichkeitsverteilungen und die dicke schwarze Linie zeigt die resultierende Dichteschätzung (dh die Mischungsverteilung).
Übrigens ist es wirklich einfach, eine Methode in R zu implementieren, die eine Probe aus der resultierenden Mischungsverteilung zieht:
# Generating some "data"
x <- rnorm(30)
# Drawing from the density estimate using the method described above.
density_estimate_sample <- replicate(9999, {
pair <- sample(x, size = 2)
rnorm(1, mean(pair), sd(pair))
})
# Plotting the density estimate compared with
# the "data" and the "true" density.
hist(x ,xlim=c(-5, 5), main='The "data"')
hist(density_estimate_sample, xlim=c(-5, 5), main='Estimated density')
hist(rnorm(9999), xlim=c(-5, 5), main='The "true" density')
quelle
x <- c(rnorm(30), rnorm(30, 10))
Antworten:
Dies ist eine faszinierende Idee, da der Schätzer der Standardabweichung weniger empfindlich gegenüber Ausreißern zu sein scheint als die üblichen Root-Mean-Square-Ansätze. Ich bezweifle jedoch, dass dieser Schätzer veröffentlicht wurde. Es gibt drei Gründe: Es ist rechnerisch ineffizient, es ist voreingenommen, und selbst wenn die Voreingenommenheit korrigiert wird, ist es statistisch ineffizient (aber nur wenig). Diese können mit einer kleinen vorläufigen Analyse gesehen werden, also lasst uns das zuerst tun und dann die Schlussfolgerungen ziehen.
Analyse
Der ML - Schätzer der Mittelwert und eine Standardabweichung & sgr; auf Daten basieren ( x i , x j ) sindμ σ (xi,xj)
und
Daher ist die in der Frage beschriebene Methode
das ist der übliche Schätzer des Mittelwertes, und
Der erwartete Wert dieses Schätzers kann leicht durch Ausnutzen der Austauschbarkeit der Daten ermittelt werden, was impliziertE=E(|xi−xj|) i j
Schlussfolgerungen
R
. (Auf anderen Plattformen wären die RAM-Anforderungen viel geringer, möglicherweise mit geringen Kosten für die Rechenzeit.)Es ist statistisch ineffizient. Um die beste Darstellung zu erzielen, betrachten wir die unvoreingenommene Version und vergleichen sie mit der neutralen Version des Schätzers für kleinste Quadrate oder maximale Wahrscheinlichkeit
R
Nachher
Code
quelle