Angenommen, Sie haben eine Reihe von Werten, und Sie möchten wissen, ob es wahrscheinlicher ist, dass sie aus einer Gaußschen (Normal-) Verteilung oder aus einer logarithmischen Normalverteilung entnommen wurden.
Idealerweise wissen Sie etwas über die Grundgesamtheit oder über die Ursachen von experimentellen Fehlern und hätten daher zusätzliche Informationen, die für die Beantwortung der Frage hilfreich sind. Angenommen, wir haben nur eine Reihe von Zahlen und keine weiteren Informationen. Was ist wahrscheinlicher: Stichproben aus einem Gaußschen oder Stichproben aus einer logarithmischen Normalverteilung? Wie viel wahrscheinlicher? Was ich mir erhoffe, ist ein Algorithmus, mit dem ich zwischen den beiden Modellen wählen und hoffentlich die relative Wahrscheinlichkeit für jedes Modell quantifizieren kann.
quelle
Antworten:
Sie können den Verteilungstyp am besten schätzen, indem Sie jede (normale oder logarithmische) Verteilung nach maximaler Wahrscheinlichkeit an die Daten anpassen und dann die logarithmische Wahrscheinlichkeit unter jedem Modell vergleichen - das Modell mit der höchsten logarithmischen Wahrscheinlichkeit ist die beste Anpassung. Zum Beispiel in R:
Generieren Sie nun Zahlen aus einer Normalverteilung und passen Sie eine Normalverteilung nach ML an:
Erzeugt:
Vergleichen Sie die Log-Wahrscheinlichkeit für ML-Anpassungen von Normal- und Log-Normalverteilungen:
Versuchen Sie es mit einer lognormalen Verteilung:
Die Zuordnung ist abhängig von n, mean und sd nicht perfekt:
quelle
p(X|\theta)
). Wir transformieren die Daten nicht. Wir drucken die Verteilung aus, für die die Wahrscheinlichkeit, die Daten zu beobachten, am höchsten ist. Dieser Ansatz ist legitim, hat aber den Nachteil, dass wir die Wahrscheinlichkeit des Modells bei gegebenen Daten nicht ableitenp(M|X)
, dh die Wahrscheinlichkeit, dass die Daten aus einer Normal-gegen-Lognormal-Verteilung stammen (z. B. p (normal) = 0,1, p (lognormal) = 0.9) im Gegensatz zum Bayes'schen Ansatz.Der schwierige Teil ist, die marginale Wahrscheinlichkeit zu bekommen ,
Beispiel:
Nach Murphy (2007) (Gleichung 203) ist die marginale Wahrscheinlichkeit der Normalverteilung dann gegeben durch
Ich verwende die gleichen Hyperparameter für die Log-Normalverteilung,
der posterior verhält sich so:
Bei der Implementierung der Gleichungen wäre es eine gute Idee, mit logarithmischen Dichten anstelle von Dichten zu arbeiten. Aber sonst sollte es ziemlich einfach sein. Hier ist der Code, mit dem ich die Zeichnungen erstellt habe:
https://gist.github.com/lucastheis/6094631
quelle
Es hört sich so an, als ob Sie nach etwas sehr Pragmatischem suchen, um Analysten zu helfen, die wahrscheinlich keine professionellen Statistiker sind, und etwas benötigen, das sie zu Standarderkundungstechniken wie dem Betrachten von qq-Diagrammen, Dichtediagrammen usw. auffordert.
Führen Sie in diesem Fall einfach einen Normalitätstest (Shapiro-Wilk oder was auch immer) für die Originaldaten und einen für die logarithmisch transformierten Daten durch. Wenn der zweite p-Wert höher ist, aktivieren Sie ein Flag, damit der Analyst die Verwendung einer logarithmischen Transformation in Betracht zieht ? Als Bonus können Sie eine 2 x 2-Grafik des Dichteliniendiagramms und des qqnorm-Diagramms der Rohdaten und der transformierten Daten ausspucken.
Dies wird Ihre Frage nach der relativen Wahrscheinlichkeit technisch nicht beantworten, aber ich frage mich, ob es alles ist, was Sie brauchen.
quelle