Die Teststatistik für den Hosmer-Lemeshow- Test (HLT) für die Anpassungsgüte (GOF) eines logistischen Regressionsmodells ist wie folgt definiert:
Die Stichprobe wird dann in Dezile, , aufgeteilt. Pro Dezil werden die folgenden Größen berechnet:
- D d , dh die beobachtete Anzahl positiver Fälle im Dezil ;
- , dh die beobachtete Anzahl negativer Fälle im Dezil ;
- , dh die geschätzte Anzahl positiver Fälle im Dezil ;
- , dh die geschätzte Anzahl negativer Fälle im Dezil ;
Dabei ist das beobachtete binäre Ergebnis für die te Beobachtung und die geschätzte Wahrscheinlichkeit für diese Beobachtung. i π i
Dann ist die Teststatistik definiert als:
Dabei ist die durchschnittliche geschätzte Wahrscheinlichkeit in Dezil und die Anzahl der Unternehmen im Dezil.
Nach Hosmer-Lemeshow (siehe diesen Link ) hat diese Statistik (unter bestimmten Voraussetzungen) eine Verteilung mit Freiheitsgraden .
Wenn ich dagegen eine Kontingenztabelle mit Zeilen (entsprechend den Dezilen) und 2 Spalten (entsprechend dem binären Ergebnis true / false) definieren würde, dann die Teststatistik für den Test für diese Kontingenztabelle Wäre das gleiche wie das oben definierte , so ist diese Teststatistik im Fall der Kontingenztabelle jedoch mit Freiheitsgrade . Also ein Freiheitsgrad mehr !
Wie kann man diesen Unterschied in der Anzahl der Freiheitsgrade erklären?
BEARBEITEN: Ergänzungen nach dem Lesen von Kommentaren:
@whuber
Sie sagen (siehe Hosmer DW, Lemeshow S. (1980), Ein Anpassungstest für das multiple logistische Regressionsmodell. Communications in Statistics, A10, 1043-1069 ), dass es einen Satz gibt, den Moore und Spruill aufzeigen Daraus folgt, dass wenn (1) die Parameter unter Verwendung von Wahrscheinlichkeitsfunktionen für nicht gruppierte Daten geschätzt werden und (2) die Häufigkeiten in der 2xg-Tabelle von den geschätzten Parametern abhängen, nämlich die Zellen zufällig und nicht fest sind, dass dann unter geeigneten Regularitätsbedingungen die Die Anpassungsgütestatistik unter (1) und (2) ist die eines zentralen Chi-Quadrats mit der üblichen Verringerung der Freiheitsgrade aufgrund geschätzter Parameter plus einer Summe gewichteter Chi-Quadrat-Variablen.
Wenn ich dann ihre Arbeit gut verstehe, versuchen sie, eine Annäherung für diesen 'Korrekturbegriff' zu finden, der, wenn ich es gut verstehe, diese gewichtete Summe von Chi-Quadrat-Zufallsvariablen ist, und dies tun sie, indem sie Simulationen durchführen, aber ich muss zugeben, dass ich nicht ganz verstehe, was sie dort sagen, daher meine Frage; Warum sind diese Zellen zufällig, wie beeinflusst das die Freiheitsgrade? Wäre es anders, wenn ich die Grenzen der Zellen festlege und dann die Beobachtungen in festen Zellen basierend auf der geschätzten Punktzahl klassifiziere. In diesem Fall sind die Zellen nicht zufällig, obwohl der 'Inhalt' der Zelle ist?
@Frank Harell: Könnte es nicht sein, dass die 'Mängel' des Hosmer-Lemeshow-Tests, die Sie in Ihren Kommentaren unten erwähnen, nur eine Folge der Annäherung der gewichteten Summe der Chi-Quadrate sind ?
rms
Paketresiduals.lrm
und dieval.prob
Funktionen.Antworten:
Hosmer DW, Lemeshow S. (1980), Ein Anpassungstest für das multiple logistische Regressionsmodell. Mitteilungen in Statistics, A10, 1043-1069 zeigen, dass:
(Hinweis: Die erforderlichen Bedingungen sind in Satz 2 auf Seite 1052 nicht explizit aufgeführt. Wenn man jedoch das Papier und den Beweis aufmerksam liest, werden diese Bedingungen angezeigt.)
Der zweite Term ergibt sich aus der Tatsache, dass die Gruppierung auf geschätzten - dh zufälligen - Größen beruht (Hosmer, Lemeshow, 1980, S.1051).∑p + 1ich = 1λichχ2ich( 1 )
Anhand von Simulationen zeigten sie, dass der zweite Term (in den in der Simulation verwendeten Fällen) durch approximiert werden kann (Hosmer, Lemeshow, 1980, S.1060).χ2(p−1)
Siehe auch Hosmer Lemeshow (1980) Paper - Theorem 2
quelle
Der Satz, auf den Sie sich beziehen (der übliche Verkleinerungsteil "übliche Verkleinerung von Freiheitsgraden aufgrund geschätzter Parameter"), wurde größtenteils von RA Fisher vertreten. In ‚Auf der Auslegung von Chi - Quadrat von Kontingenz Tabellen, und der Berechnung von P‘ (1922) , argumentierte er das verwenden Regel und in ‚Die Güte der Anpassung der Regressionsformeln‘ ( 1922) argumentiert er, die Freiheitsgrade um die Anzahl der Parameter zu verringern, die in der Regression verwendet werden, um erwartete Werte aus den Daten zu erhalten. (Es ist interessant festzustellen, dass Menschen den Chi-Quadrat-Test mit falschen Freiheitsgraden seit seiner Einführung im Jahr 1900 über zwanzig Jahre lang missbraucht haben.)(R−1)∗(C−1)
Ihr Fall ist von der zweiten Art (Regression) und nicht von der früheren Art (Kontingenztabelle), obwohl die beiden insofern zusammenhängen, als es sich um lineare Einschränkungen der Parameter handelt.
Da Sie die erwarteten Werte auf der Grundlage Ihrer beobachteten Werte modellieren und dies mit einem Modell mit zwei Parametern tun , beträgt die "übliche" Verringerung der Freiheitsgrade zwei plus eins (eine zusätzliche, da die O_i summieren müssen eine Summe, die eine weitere lineare Einschränkung darstellt, und Sie erhalten aufgrund der Ineffizienz der modellierten erwarteten Werte effektiv eine Reduzierung um zwei statt um drei.
Der Chi-Quadrat - Test verwendet eine als Abstandsmaß auszudrücken , wie nahe ein Ergebnis zu den erwarteten Daten ist. In den vielen Versionen der Chi-Quadrat-Tests bezieht sich die Verteilung dieses Abstands auf die Summe der Abweichungen in normalverteilten Variablen (was nur im Grenzfall zutrifft und eine Annäherung darstellt, wenn Sie mit nicht normalverteilten Daten arbeiten). .χ2
Für die multivariate Normalverteilung wird die Dichtefunktion mit dem im Zusammenhang durchχ2
mit die Determinante der Kovarianzmatrix von x|Σ| x
und ist die Mahalanobis - Distanz, die den euklidischen Abstandes verringert , wenn Σ = I .χ2=(x−μ)TΣ−1(x−μ) Σ=I
In seinem 1900 Artikel argumentiert Pearson , dass die -Ebenen sind Sphäroide und dass er in sphärischen Koordinaten, um einen Wert zu integrieren wie umwandeln kann P ( χ 2 > a ) . Welches wird ein einziges Integral.χ2 P(χ2>a)
Es ist diese geometrische Darstellung, als Abstand und auch einen Begriff in Dichtefunktion, das kann helfen , die Verringerung der Freiheitsgrade zu verstehen , wenn lineare Beschränkungen vorhanden sind.χ2
Zuerst der Fall einer 2x2-Kontingenztabelle . Sie sollten beachten, dass die vier Werte sind nichtvierunabhängige normalverteilte Variablen. Sie sind stattdessen miteinander verwandt und lassen sich auf eine einzige Variable reduzieren.Oi−EiEi
Lass uns den Tisch benutzen
dann wenn die erwarteten Werte
wo fest dann würde als Chi-Quadrat-Verteilung mit vier Freiheitsgraden verteilt, aber oft schätzen wir daseijbasierend auf demoijund die Variation ist nicht wie vier unabhängige Variablen. Stattdessen stellen wir fest, dass alle Unterschiede zwischenounde gleichsind∑oij−eijeij eij oij o e
und sie sind effektiv eher eine einzelne Variable als vier. Geometrisch können Sie dies als den -Wert sehen, der nicht auf einer vierdimensionalen Kugel, sondern auf einer einzelnen Linie integriert ist.χ2
Beachten Sie, dass dieser Kontingenztabellentest nicht für die Kontingenztabelle im Hosmer-Lemeshow-Test gilt (es wird eine andere Nullhypothese verwendet!). Siehe auch Abschnitt 2.1 "Der Fall, in dem und β _ bekannt sind" in dem Artikel von Hosmer und Lemshow. In diesem Fall erhalten Sie 2g-1 Freiheitsgrade und nicht g-1 Freiheitsgrade wie in der Regel (R-1) (C-1). Diese (R-1) (C-1) -Regel gilt insbesondere für die Nullhypothese, dass Zeilen- und Spaltenvariablen unabhängig sind (wodurch R + C-1-Einschränkungen für o i - e i erstellt werdenβ0 β–– oi−ei Werte). Die Hosmer Lemeshow-Test bezieht sich auf die Hypothese , dass die Zellen nach den Wahrscheinlichkeiten eines logistischen Regressionsmodells auf der Grundlage gefüllt sind Parameter im Fall der Annahme verteilungs A und p + 1 Parameter im Fall der Annahme B. Verteilungs-four p+1
Vielleicht können die folgenden Bilder etwas helfen
Das folgende Bild kann verwendet werden, um eine Vorstellung von der Dimensionsverringerung in den Restlaufzeiten zu erhalten. Es erklärt die Methode der Anpassung der kleinsten Quadrate in geometrischen Begriffen.
In blau hast du Maße. In rot haben Sie, was das Modell erlaubt. Das Maß entspricht oft nicht genau dem Modell und weist Abweichungen auf. Sie können dies geometrisch als den Abstand vom gemessenen Punkt zur roten Fläche betrachten.
Dieser Unterschied zwischen beobachteten und (modellierten) erwarteten Vektoren ist also eine Summe von Vektoren, die senkrecht zum Modellvektor sind (und dieser Raum hat die Dimension des gesamten Raums abzüglich der Anzahl der Modellvektoren).
In unserem einfachen Beispielfall. Die Gesamtabmessung beträgt 3. Das Modell hat 2 Dimensionen. Und der Fehler hat eine Dimension 1 (unabhängig davon, welchen der blauen Punkte Sie nehmen, zeigen die grünen Pfeile ein einzelnes Beispiel, die Fehlerausdrücke haben immer das gleiche Verhältnis, folgen einem einzelnen Vektor).
quelle