Kann eine Log-Wahrscheinlichkeit von -2 mit nur einem Modell berechnet werden?

9

Ich benutze die glmfitFunktion in MATLAB. Die Funktion gibt nur die Abweichung und nicht die Protokollwahrscheinlichkeit zurück. Ich verstehe, dass die Abweichung im Grunde doppelt so groß ist wie der Unterschied zwischen den Log-Wahrscheinlichkeiten der Modelle, aber was ich nicht bekomme, ist, dass ich nur glmfitein Modell erstelle, aber irgendwie bekomme ich eine Abweichung.

  • Erfordert die Berechnung der -2-Protokollwahrscheinlichkeit nicht zwei Modelle?
  • Wie kann die Abweichung analysiert werden, wenn es nur ein Modell gibt?

Eine andere Frage, die ich habe, ist, dass ich zwei Modelle hatte und sie mit dem Log-Likelihood-Test verglichen habe. Die Nullhypothese wäre das erste Modell und die alternative Hypothese wäre das zweite Modell. Würde ich nach Erhalt der Log-Likelihood-Teststatistik diese mit dem Chi-Quadrat-PDF vergleichen, um den p-Wert zu bestimmen? Habe ich Recht, wenn es kleiner als das Alpha-Level ist, würde ich die Null ablehnen und wenn es größer ist, würde ich die Null nicht ablehnen?

shiu6rewgu
quelle
2
Auf deine erste Frage. Ja, es gibt 2 Modelle. Das andere ist ein perfektes Modell mit einer Log-Wahrscheinlichkeit von 0. Auf diese Weise entspricht Ihre Abweichung genau der Log-Wahrscheinlichkeit Ihres Modells.
FMZ
1
Wäre es ein perfektes Modell - mein Modell oder mein Modell - ein perfektes Modell? Und würde das Teilen durch -2 mir wirklich die Log-Wahrscheinlichkeit des Modells geben und ich könnte das verwenden, um den Log-Likelihood-Test durchzuführen?
Shiu6rewgu

Antworten:

13

Der statistische Begriff Abweichung wird etwas zu viel herumgeworfen. Meistens geben Programme die Abweichung wobei Ihre geschätzten Parameter sind. Aus der Modellanpassung und ergibt sich ein potenziell beobachtetes / beobachtbares Auftreten der fraglichen Zufallsgröße.

D.(y)=- -2Log{p(y|θ^)}},
θ yθ^y

Die häufigere Abweichung, auf die Sie sich beziehen, würde die obige Abweichung als Funktion von zwei Variablen behandeln, sowohl den Daten als auch den angepassten Parametern: und wenn Sie also einen Wert, aber zwei konkurrierende, angepasste Parameterwerte hatten, und , dann Sie würden die von Ihnen erwähnte Abweichung von Sie können über die von Ihnen erwähnte Matlab-Funktion lesen , die hier verlinkt ist . Eine fruchtbarere, wenn auch kürzere Diskussion der Abweichung ist hier verbunden .

D.(y,θ^)=- -2Log{p(y|θ^)}}
yθ 1 θ 2 - 2 ( log { P ( y | θ 1 ) } - log { P ( y | θ 2 ) } ) .θ^1θ^2
- -2(Log{p(y|θ^1)}}- -Log{p(y|θ^2)}}).
glmfit()

Die Abweichungsstatistik geht implizit von zwei Modellen aus: Das erste ist Ihr angepasstes Modell, das von zurückgegeben wird glmfit(). Rufen Sie diesen Parameter vector . Das zweite ist das "Vollmodell" (auch "gesättigtes Modell" genannt), bei dem es für jeden Datenpunkt eine freie Variable gibt. Rufen Sie diesen Parametervektor . Es ist natürlich eine dumme Sache, so viele freie Variablen zu haben, aber es erlaubt Ihnen, genau auf diese Daten zu passen.θ^1 θ sθ^s

Die Abweichungsstatistik wird dann als Differenz zwischen der am angepassten Modell berechneten Log-Wahrscheinlichkeit und dem gesättigten Modell berechnet. Sei die Sammlung der N Datenpunkte. Dann:Y.={y1,y2,,yN.}}

D.E.V.(θ^1,Y.)=- -2[Logp(Y.|θ^1)- -Logp(Y.|θ^s)]].
Die obigen Begriffe werden durch die Unabhängigkeitsannahme zu Summationen über die einzelnen Datenpunkte . Wenn Sie diese Berechnung verwenden möchten, um die Log-Wahrscheinlichkeit des Modells zu berechnen, müssen Sie zuerst die Log-Wahrscheinlichkeit des gesättigten Modells berechnen. Hier ist ein Link , der einige Ideen für die Berechnung erklärt ... aber der Haken ist, dass Sie in jedem Fall eine Funktion aufschreiben müssen, die die Protokollwahrscheinlichkeit für Ihren Datentyp berechnet, und in diesem Fall Es ist wahrscheinlich nur besser, eine eigene Funktion zu erstellen, die die Log-Wahrscheinlichkeit selbst berechnet, als sie aus einer Abweichungsberechnung zurückzuverfolgen.yich

In Kapitel 6 der Bayes'schen Datenanalyse finden Sie eine gute Diskussion der Abweichung.

Was Ihren zweiten Punkt bezüglich der Wahrscheinlichkeitsteststatistik betrifft, so klingt es so, als ob Sie im Grunde das Richtige wissen. In vielen Fällen betrachten Sie die Nullhypothese jedoch als etwas, das Sie durch externes Expertenwissen im Voraus erraten können (z. B. wenn ein Koeffizient gleich Null ist). Es ist nicht unbedingt etwas, das sich aus der Modellanpassung ergibt.

ely
quelle
Vielen Dank, dass Sie EMS! Du hast mir wirklich geholfen zu verstehen, was Abweichung ist! Ich habe noch ein paar Fragen, bin mir aber nicht sicher, wie ich sie stellen soll. Sobald ich herausgefunden habe, wie ich es ausdrücken soll, werde ich hier definitiv antworten.
Shiu6rewgu
Ok, erste Frage, wie würde ich die Protokollwahrscheinlichkeit für das Modell, das ich erstellt habe, aus der Abweichung extrahieren, wenn man bedenkt, dass Matlab mir nur die Abweichung gibt? Auch (ich weiß, das lässt mich ziemlich dumm aussehen, aber) für p (y | θˆ2) wäre das die Wahrscheinlichkeit, einen bestimmten y-Wert aus dem Ergebnisdatensatz oder den unabhängigen Variablen zu erhalten, wenn der angepasste Parameter gegeben ist
shiu6rewgu
Es scheint, dass ich mich bei Matlabs Methode geirrt habe. Es berechnet die Abweichung anhand von zwei Modellen, und ich habe die obige Antwort bearbeitet, um dies widerzuspiegeln.
Ely
+1, das ist eine wirklich schöne Antwort. Ich hoffe, in Zukunft mehr davon zu sehen.
Gung - Reinstate Monica
1
@SibbsGambling In diesem Link gibt es ein Beispiel mit Coolibah-Baumdaten, die ein "volles" oder "gesättigtes" Modell zeigen, bei dem die Log-Wahrscheinlichkeit nicht Null ist. Ich glaube, es gibt bestimmte Situationen, in denen das gesättigte Modell per Definition eine Wahrscheinlichkeit von eins haben muss, aber nicht in allen Situationen.
Ely