Sei LL = loglikelihood
Hier ist eine kurze Zusammenfassung dessen, was Sie aus der zusammenfassenden Ausgabe (glm.fit) sehen.
Nullabweichung = 2 (LL (gesättigtes Modell) - LL (Nullmodell)) bei df = df_Sat - df_Null
Restabweichung = 2 (LL (gesättigtes Modell) - LL (vorgeschlagenes Modell)) df = df_Sat - df_Proposed
Das gesättigte Modell ist ein Modell, das davon ausgeht, dass jeder Datenpunkt seine eigenen Parameter hat (was bedeutet, dass Sie n Parameter schätzen müssen.)
Das Nullmodell nimmt das genaue "Gegenteil" an, dh es wird ein Parameter für alle Datenpunkte angenommen, dh Sie schätzen nur 1 Parameter.
Das vorgeschlagene Modell geht davon aus, dass Sie Ihre Datenpunkte mit p-Parametern + einem Intercept-Term erklären können, sodass Sie p + 1-Parameter haben.
Wenn Ihre Null-Abweichung wirklich klein ist, bedeutet dies, dass das Null-Modell die Daten ziemlich gut erklärt. Ebenso mit Ihrer Restabweichung .
Was heißt eigentlich klein? Wenn Ihr Modell "gut" ist, beträgt Ihre Abweichung ungefähr 2 mit (df_sat - df_model) Freiheitsgraden.
Wenn Sie Ihr Nullmodell mit Ihrem vorgeschlagenen Modell vergleichen möchten, können Sie sich anschauen
(Nullabweichung - Restabweichung) ca. Chi ^ 2 mit df Vorgeschlagen - df Null = (n- (p + 1)) - (n-1) = p
Sind die Ergebnisse, die Sie direkt von R gaben? Sie scheinen ein bisschen seltsam, weil Sie im Allgemeinen sehen sollten, dass die auf dem Null angegebenen Freiheitsgrade immer höher sind als die auf dem Residuum angegebenen Freiheitsgrade. Dies liegt wiederum daran, dass Nullabweichung df = Gesättigte df - Nullabweichung df = n-1 Restabweichung df = Gesättigte df - Vorgeschlagene df = n- (p + 1)
GLM
?Die Nullabweichung zeigt, wie gut die Antwort vom Modell mit nichts als einem Achsenabschnitt vorhergesagt wird.
Die Restabweichung zeigt, wie gut das Modell die Reaktion vorhersagt, wenn die Prädiktoren einbezogen werden. Aus Ihrem Beispiel ist ersichtlich, dass die Abweichung um 3443,3 steigt, wenn 22 Prädiktorvariablen hinzugefügt werden (Anmerkung: Freiheitsgrade = Anzahl der Beobachtungen - Anzahl der Prädiktoren). Diese Zunahme der Abweichung ist ein Beweis für einen signifikanten Mangel an Passform.
Wir können die Restabweichung auch verwenden, um zu testen, ob die Nullhypothese wahr ist (dh das logistische Regressionsmodell bietet eine angemessene Anpassung für die Daten). Dies ist möglich, weil die Abweichung durch den Chi-Quadrat-Wert bei bestimmten Freiheitsgraden gegeben ist. Um die Signifikanz zu testen, können wir die zugehörigen p-Werte unter Verwendung der folgenden Formel in R herausfinden:
Wenn Sie die obigen Werte für die Restabweichung und DF verwenden, erhalten Sie einen p-Wert von ungefähr Null, was darauf hinweist, dass ein erheblicher Mangel an Beweisen vorliegt, die die Nullhypothese stützen.
quelle