Ich habe einige Daten und habe versucht, eine glatte Kurve daran anzupassen. Ich möchte jedoch nicht zu viele frühere Überzeugungen oder zu starke Vorurteile (mit Ausnahme derjenigen, die im Rest meiner Frage impliziert sind) oder bestimmte Verteilungen durchsetzen.
Ich wollte es nur mit einer glatten Kurve versehen (oder eine gute Schätzung der Wahrscheinlichkeitsverteilung haben, von der es stammen könnte). Die einzige Methode, die ich dafür kenne, ist die Kernel Density Estimation (KDE). Ich habe mich gefragt, ob die Leute andere Methoden kennen, um so etwas abzuschätzen. Ich wollte nur eine Liste von ihnen und daraus kann ich meine eigenen Nachforschungen anstellen, um herauszufinden, welche ich verwenden möchte.
Das Angeben von Links oder guten Referenzen (oder Anschauungen, welche gut sind) ist immer willkommen (und wird empfohlen)!
quelle
Antworten:
Sie geben nicht an, dass es sich um kontinuierliche Zufallsvariablen handelt, aber ich gehe davon aus, dass Sie dies beabsichtigen, da Sie KDE erwähnen.
Zwei weitere Methoden zum Anpassen glatter Dichten:
1) Schätzung der Log-Spline-Dichte. Hier wird eine Spline-Kurve an die logarithmische Dichte angepasst.
Ein Beispielpapier:
Kooperberg and Stone (1991),
"Eine Studie zur Schätzung der Logspline-Dichte",
Computational Statistics & Data Analysis , 12 , 327-347
Kooperberg bietet hier unter "1991" einen Link zu einem PDF seiner Arbeit .
Wenn Sie R verwenden, gibt es dafür ein Paket . Ein Beispiel für eine von ihm erzeugte Anpassung finden Sie hier . Unten finden Sie ein Histogramm der Protokolle des dortigen Datensatzes sowie Reproduktionen der Logspline- und Kernel-Dichteschätzungen aus der Antwort:
Schätzung der Logspline-Dichte:
Schätzung der Kerneldichte:
2) Modelle mit endlicher Mischung . Hier wird eine geeignete Verteilungsfamilie ausgewählt (in vielen Fällen die normale), und es wird angenommen, dass die Dichte eine Mischung aus mehreren verschiedenen Mitgliedern dieser Familie ist. Beachten Sie, dass Kernel-Dichteschätzungen als eine solche Mischung angesehen werden können (bei einem Gaußschen Kernel handelt es sich um eine Mischung von Gaußschen).
Allgemeiner können diese über ML oder den EM-Algorithmus oder in einigen Fällen über Momentanpassung angepasst werden, obwohl unter bestimmten Umständen andere Ansätze möglich sein können.
(Es gibt eine Vielzahl von R-Paketen, die verschiedene Formen der Mischungsmodellierung durchführen.)
Hinzugefügt in bearbeiten:
3) Gemittelte verschobene Histogramme
(die nicht buchstäblich glatt sind, aber vielleicht glatt genug für Ihre nicht angegebenen Kriterien):
Stellen Sie sich vor, Sie berechnen eine Folge von Histogrammen mit einer festen Binbreite ( ) über einen Bin-Ursprung, der sich jedes Mal um eine ganze Zahl um verschiebt , und werden dann gemittelt. Dies sieht auf den ersten Blick wie ein Histogramm aus, das bei Binbreite wurde, ist jedoch viel flüssiger.b / k k b / kb b / k k b/k
Berechnen Sie beispielsweise jeweils 4 Histogramme bei Binbreite 1, die jedoch um + 0, + 0,25, + 0,5, + 0,75 versetzt sind, und mitteln Sie dann die Höhen bei einem bestimmten . Am Ende haben Sie so etwas:x
Diagramm aus dieser Antwort . Wie ich dort sage, können Sie, wenn Sie zu diesem Aufwand gehen, genauso gut eine Kernel-Dichteschätzung durchführen.
quelle
Vorbehaltlich der obigen Kommentare zu Annahmen wie Glätte usw. können Sie die Bayes'sche nichtparametrische Dichteschätzung unter Verwendung von Mischungsmodellen mit dem Dirichlet-Prozess vor durchführen.
Das Bild unten zeigt die Wahrscheinlichkeitsdichtekonturen, die aus der MCMC-Schätzung eines bivariaten normalen DP-Mischungsmodells für die "alten treuen" Daten gewonnen wurden. Die Punkte sind gemäß der im letzten MCMC-Schritt erhaltenen Clusterbildung IIRC-gefärbt.
Das Jahr 2010 bietet einige gute Hintergrundinformationen.
quelle
Eine beliebte Wahl sind zufällige Wälder (siehe konkret Kapitel 5 von " Entscheidungswälder: Ein einheitlicher Rahmen für Klassifizierung, Regression, Dichteschätzung, vielfältiges Lernen und halbüberwachtes Lernen ".
Es beschreibt den Algorithmus im Detail und bewertet ihn mit anderen gängigen Optionen wie k-means, GMM und KDE. Random Forest sind in R und Scikit-Learn implementiert.
Random Forest sind auf clevere Weise eingesackte Entscheidungsbäume.
quelle