Ich benutze die glmfit
Funktion in MATLAB. Die Funktion gibt nur die Abweichung und nicht die Protokollwahrscheinlichkeit zurück. Ich verstehe, dass die Abweichung im Grunde doppelt so groß ist wie der Unterschied zwischen den Log-Wahrscheinlichkeiten der Modelle, aber was ich nicht bekomme, ist, dass ich nur glmfit
ein Modell erstelle, aber irgendwie bekomme ich eine Abweichung.
- Erfordert die Berechnung der -2-Protokollwahrscheinlichkeit nicht zwei Modelle?
- Wie kann die Abweichung analysiert werden, wenn es nur ein Modell gibt?
Eine andere Frage, die ich habe, ist, dass ich zwei Modelle hatte und sie mit dem Log-Likelihood-Test verglichen habe. Die Nullhypothese wäre das erste Modell und die alternative Hypothese wäre das zweite Modell. Würde ich nach Erhalt der Log-Likelihood-Teststatistik diese mit dem Chi-Quadrat-PDF vergleichen, um den p-Wert zu bestimmen? Habe ich Recht, wenn es kleiner als das Alpha-Level ist, würde ich die Null ablehnen und wenn es größer ist, würde ich die Null nicht ablehnen?
quelle
Antworten:
Der statistische Begriff Abweichung wird etwas zu viel herumgeworfen. Meistens geben Programme die Abweichung wobei Ihre geschätzten Parameter sind. Aus der Modellanpassung und ergibt sich ein potenziell beobachtetes / beobachtbares Auftreten der fraglichen Zufallsgröße.D ( y) = - 2 log{ p ( y| θ^) } , θ yθ^ y
Die häufigere Abweichung, auf die Sie sich beziehen, würde die obige Abweichung als Funktion von zwei Variablen behandeln, sowohl den Daten als auch den angepassten Parametern: und wenn Sie also einen Wert, aber zwei konkurrierende, angepasste Parameterwerte hatten, und , dann Sie würden die von Ihnen erwähnte Abweichung von Sie können über die von Ihnen erwähnte Matlab-Funktion lesen , die hier verlinkt ist . Eine fruchtbarere, wenn auch kürzere Diskussion der Abweichung ist hier verbunden .D ( y, θ^) = - 2 log{ p ( y| θ^) } y θ 1 θ 2 - 2 ( log { P ( y | θ 1 ) } - log { P ( y | θ 2 ) } ) .θ^1 θ^2 - 2 ( log{ p ( y| θ^1) } -log{ p ( y| θ^2) } ).
glmfit()
Die Abweichungsstatistik geht implizit von zwei Modellen aus: Das erste ist Ihr angepasstes Modell, das von zurückgegeben wirdθ^1 θ sθ^s
glmfit()
. Rufen Sie diesen Parameter vector . Das zweite ist das "Vollmodell" (auch "gesättigtes Modell" genannt), bei dem es für jeden Datenpunkt eine freie Variable gibt. Rufen Sie diesen Parametervektor . Es ist natürlich eine dumme Sache, so viele freie Variablen zu haben, aber es erlaubt Ihnen, genau auf diese Daten zu passen.Die Abweichungsstatistik wird dann als Differenz zwischen der am angepassten Modell berechneten Log-Wahrscheinlichkeit und dem gesättigten Modell berechnet. Sei die Sammlung der N Datenpunkte. Dann:Y.= { y1, y2, ⋯ , yN.}}
In Kapitel 6 der Bayes'schen Datenanalyse finden Sie eine gute Diskussion der Abweichung.
Was Ihren zweiten Punkt bezüglich der Wahrscheinlichkeitsteststatistik betrifft, so klingt es so, als ob Sie im Grunde das Richtige wissen. In vielen Fällen betrachten Sie die Nullhypothese jedoch als etwas, das Sie durch externes Expertenwissen im Voraus erraten können (z. B. wenn ein Koeffizient gleich Null ist). Es ist nicht unbedingt etwas, das sich aus der Modellanpassung ergibt.
quelle