Verschiedene nichtparametrische Methoden zur Schätzung der Wahrscheinlichkeitsverteilung von Daten

10

Ich habe einige Daten und habe versucht, eine glatte Kurve daran anzupassen. Ich möchte jedoch nicht zu viele frühere Überzeugungen oder zu starke Vorurteile (mit Ausnahme derjenigen, die im Rest meiner Frage impliziert sind) oder bestimmte Verteilungen durchsetzen.

Ich wollte es nur mit einer glatten Kurve versehen (oder eine gute Schätzung der Wahrscheinlichkeitsverteilung haben, von der es stammen könnte). Die einzige Methode, die ich dafür kenne, ist die Kernel Density Estimation (KDE). Ich habe mich gefragt, ob die Leute andere Methoden kennen, um so etwas abzuschätzen. Ich wollte nur eine Liste von ihnen und daraus kann ich meine eigenen Nachforschungen anstellen, um herauszufinden, welche ich verwenden möchte.

Das Angeben von Links oder guten Referenzen (oder Anschauungen, welche gut sind) ist immer willkommen (und wird empfohlen)!

Pinocchio
quelle
3
" Ich wollte keine vorherigen Überzeugungen durchsetzen " - dann kann man nicht davon ausgehen, dass es glatt oder sogar kontinuierlich ist (das wären vorherige Überzeugungen). In diesem Fall handelt es sich beim ecdf um Ihren einzigen Rückgriff.
Glen_b -State Monica
1
Zu stark davon überzeugt zu sein, dass ich meine Frage besser formulieren kann. Ich meinte, ich möchte nicht sagen, Bernoulli oder etwas, das zu restriktiv sein könnte. Ich weiß übrigens nicht, was ecdf ist. Wenn Sie einen guten Vorschlag oder eine Liste von Vorschlägen haben, können Sie ihn gerne posten.
Pinocchio
Ich habe meine Frage aktualisiert. Ist das besser? Klarer? Es gibt übrigens keine richtige Antwort auf meine Frage, nur gute und weniger nützliche. :)
Pinocchio
2
ecdf = empirisches cdf , sorry. Wir können nur die Frage beantworten, die Sie stellen, nicht die, die Sie stellen wollten. Sie müssen also vorsichtig sein, um klar zu sein, wenn Sie Ihre Annahmen zum Ausdruck bringen.
Glen_b -State Monica
Ein normalisiertes Histogramm kann als Dichteschätzung angesehen werden
Dason

Antworten:

5

Sie geben nicht an, dass es sich um kontinuierliche Zufallsvariablen handelt, aber ich gehe davon aus, dass Sie dies beabsichtigen, da Sie KDE erwähnen.

Zwei weitere Methoden zum Anpassen glatter Dichten:

1) Schätzung der Log-Spline-Dichte. Hier wird eine Spline-Kurve an die logarithmische Dichte angepasst.

Ein Beispielpapier:

Kooperberg and Stone (1991),
"Eine Studie zur Schätzung der Logspline-Dichte",
Computational Statistics & Data Analysis , 12 , 327-347

Kooperberg bietet hier unter "1991" einen Link zu einem PDF seiner Arbeit .

Wenn Sie R verwenden, gibt es dafür ein Paket . Ein Beispiel für eine von ihm erzeugte Anpassung finden Sie hier . Unten finden Sie ein Histogramm der Protokolle des dortigen Datensatzes sowie Reproduktionen der Logspline- und Kernel-Dichteschätzungen aus der Antwort:

Histogramm der Protokolldaten

Schätzung der Logspline-Dichte:

Logspline-Plot

Schätzung der Kerneldichte:

Schätzung der Kerneldichte

2) Modelle mit endlicher Mischung . Hier wird eine geeignete Verteilungsfamilie ausgewählt (in vielen Fällen die normale), und es wird angenommen, dass die Dichte eine Mischung aus mehreren verschiedenen Mitgliedern dieser Familie ist. Beachten Sie, dass Kernel-Dichteschätzungen als eine solche Mischung angesehen werden können (bei einem Gaußschen Kernel handelt es sich um eine Mischung von Gaußschen).

Allgemeiner können diese über ML oder den EM-Algorithmus oder in einigen Fällen über Momentanpassung angepasst werden, obwohl unter bestimmten Umständen andere Ansätze möglich sein können.

(Es gibt eine Vielzahl von R-Paketen, die verschiedene Formen der Mischungsmodellierung durchführen.)

Hinzugefügt in bearbeiten:

3) Gemittelte verschobene Histogramme
(die nicht buchstäblich glatt sind, aber vielleicht glatt genug für Ihre nicht angegebenen Kriterien):

Stellen Sie sich vor, Sie berechnen eine Folge von Histogrammen mit einer festen Binbreite ( ) über einen Bin-Ursprung, der sich jedes Mal um eine ganze Zahl um verschiebt , und werden dann gemittelt. Dies sieht auf den ersten Blick wie ein Histogramm aus, das bei Binbreite wurde, ist jedoch viel flüssiger.b / k k b / kbb/kkb/k

Berechnen Sie beispielsweise jeweils 4 Histogramme bei Binbreite 1, die jedoch um + 0, + 0,25, + 0,5, + 0,75 versetzt sind, und mitteln Sie dann die Höhen bei einem bestimmten . Am Ende haben Sie so etwas:x

Gemitteltes verschobenes Histogramm

Diagramm aus dieser Antwort . Wie ich dort sage, können Sie, wenn Sie zu diesem Aufwand gehen, genauso gut eine Kernel-Dichteschätzung durchführen.

Glen_b - Monica neu starten
quelle
Dazu hinzufügen. Für das Mischungsmodell - ich denke, Sie könnten eine Mischung aus 2, dann 3, dann 4 Verteilungen
anpassen
4

Vorbehaltlich der obigen Kommentare zu Annahmen wie Glätte usw. können Sie die Bayes'sche nichtparametrische Dichteschätzung unter Verwendung von Mischungsmodellen mit dem Dirichlet-Prozess vor durchführen.

Das Bild unten zeigt die Wahrscheinlichkeitsdichtekonturen, die aus der MCMC-Schätzung eines bivariaten normalen DP-Mischungsmodells für die "alten treuen" Daten gewonnen wurden. Die Punkte sind gemäß der im letzten MCMC-Schritt erhaltenen Clusterbildung IIRC-gefärbt.

Geben Sie hier die Bildbeschreibung ein

Das Jahr 2010 bietet einige gute Hintergrundinformationen.

Vermutungen
quelle