Freiheitsgrade von

33

Die Teststatistik für den Hosmer-Lemeshow- Test (HLT) für die Anpassungsgüte (GOF) eines logistischen Regressionsmodells ist wie folgt definiert:

Die Stichprobe wird dann in Dezile, , aufgeteilt. Pro Dezil werden die folgenden Größen berechnet:d=10D1,D2,,Dd

  • D dO1d=iDdyich , dh die beobachtete Anzahl positiver Fälle im Dezil ;Dd
  • O0d=ichDd(1-yich) , dh die beobachtete Anzahl negativer Fälle im Dezil ;Dd
  • E1d=iDdπ^i , dh die geschätzte Anzahl positiver Fälle im Dezil ;Dd
  • E0d=iDd(1π^i) , dh die geschätzte Anzahl negativer Fälle im Dezil ;Dd

Dabei ist das beobachtete binäre Ergebnis für die te Beobachtung und die geschätzte Wahrscheinlichkeit für diese Beobachtung. i π iyiiπ^i

Dann ist die Teststatistik definiert als:

X2=h=01G=1d((OhG-EhG)2EhG)=G=1d(O1G-nGπ^GnG(1-π^G)π^G)2,

Dabei ist die durchschnittliche geschätzte Wahrscheinlichkeit in Dezil und die Anzahl der Unternehmen im Dezil.π^GGnG

Nach Hosmer-Lemeshow (siehe diesen Link ) hat diese Statistik (unter bestimmten Voraussetzungen) eine Verteilung mit Freiheitsgraden . χ2(d-2)

Wenn ich dagegen eine Kontingenztabelle mit Zeilen (entsprechend den Dezilen) und 2 Spalten (entsprechend dem binären Ergebnis true / false) definieren würde, dann die Teststatistik für den Test für diese Kontingenztabelle Wäre das gleiche wie das oben definierte , so ist diese Teststatistik im Fall der Kontingenztabelle jedoch mit Freiheitsgrade . Also ein Freiheitsgrad mehr !dχ2X2χ2(d1)(21)=d1

Wie kann man diesen Unterschied in der Anzahl der Freiheitsgrade erklären?

BEARBEITEN: Ergänzungen nach dem Lesen von Kommentaren:

@whuber

Sie sagen (siehe Hosmer DW, Lemeshow S. (1980), Ein Anpassungstest für das multiple logistische Regressionsmodell. Communications in Statistics, A10, 1043-1069 ), dass es einen Satz gibt, den Moore und Spruill aufzeigen Daraus folgt, dass wenn (1) die Parameter unter Verwendung von Wahrscheinlichkeitsfunktionen für nicht gruppierte Daten geschätzt werden und (2) die Häufigkeiten in der 2xg-Tabelle von den geschätzten Parametern abhängen, nämlich die Zellen zufällig und nicht fest sind, dass dann unter geeigneten Regularitätsbedingungen die Die Anpassungsgütestatistik unter (1) und (2) ist die eines zentralen Chi-Quadrats mit der üblichen Verringerung der Freiheitsgrade aufgrund geschätzter Parameter plus einer Summe gewichteter Chi-Quadrat-Variablen.

Wenn ich dann ihre Arbeit gut verstehe, versuchen sie, eine Annäherung für diesen 'Korrekturbegriff' zu finden, der, wenn ich es gut verstehe, diese gewichtete Summe von Chi-Quadrat-Zufallsvariablen ist, und dies tun sie, indem sie Simulationen durchführen, aber ich muss zugeben, dass ich nicht ganz verstehe, was sie dort sagen, daher meine Frage; Warum sind diese Zellen zufällig, wie beeinflusst das die Freiheitsgrade? Wäre es anders, wenn ich die Grenzen der Zellen festlege und dann die Beobachtungen in festen Zellen basierend auf der geschätzten Punktzahl klassifiziere. In diesem Fall sind die Zellen nicht zufällig, obwohl der 'Inhalt' der Zelle ist?

@Frank Harell: Könnte es nicht sein, dass die 'Mängel' des Hosmer-Lemeshow-Tests, die Sie in Ihren Kommentaren unten erwähnen, nur eine Folge der Annäherung der gewichteten Summe der Chi-Quadrate sind ?


quelle
9
Das Buch enthält eine detaillierte Beschreibung dieses Tests und die Grundlage dafür. Ihre Frage ist auf den Seiten 145-149 vollständig beantwortet. Das Bestimmen von Freiheitsgraden in Tests ist eine subtile Sache, da die meisten dieser Tests (an erster Stelle) Näherungswerte sind und diese Näherungswerte nur dann gut sind, wenn scheinbar geringfügige technische Bedingungen zutreffen. Weitere Informationen hierzu finden Sie unter stats.stackexchange.com/a/17148 . H & L ging einen rein praktischen Weg: Sie stützten ihre Empfehlung für DF auf "umfangreiche Simulationen". χ2d2
whuber
4
Dieser Test wird nun als veraltet angesehen, da (1) keine Leistung vorliegt, (2) kontinuierliche Wahrscheinlichkeiten gruppiert werden und (3) die Wahl der Gruppierung und die Definition der Dezile willkürlich ist. Empfohlen wird der Hosmer - le Cessie 1 df Test oder der Spiegelhalter Test. Siehe zum Beispiel das R- rmsPaket residuals.lrmund die val.probFunktionen.
Frank Harrell
2
@Frank Harell: (a) Auch wenn der Hosmer-Lemeshow-Test veraltet ist, halte ich es immer noch für interessant, den Unterschied zu zu verstehen, und (b) haben Sie eine Referenz, die zeigt, dass der Spiegelhalter-Test mehr Leistung hat als der Hosmer-Lemeshow-Test? χ2
2
Diese Probleme sind meiner Meinung nach im Vergleich zur ursprünglichen Frage sehr gering.
Frank Harrell
3
Ich denke, Details erscheinen an anderer Stelle auf dieser Seite. Kurz gesagt, (1) Hosmer hat gezeigt, dass der Test willkürlich ist - er reagiert sehr genau darauf, wie Dezile berechnet werden. (2) es fehlt die Energie. Sie können sehen, dass es auf ungenauen Mengen basiert, indem Sie die gruppierte Kalibrierungskurve (im Gegensatz zu einer glatten Kalibrierungskurve) zeichnen und die Sprünge notieren. Außerdem wird eine extreme Überanpassung nicht ausreichend bestraft.
Frank Harrell

Antworten:

2

Hosmer DW, Lemeshow S. (1980), Ein Anpassungstest für das multiple logistische Regressionsmodell. Mitteilungen in Statistics, A10, 1043-1069 zeigen, dass:

Wenn das Modell ein logistisches Regressionsmodell ist und die Parameter nach der maximalen Wahrscheinlichkeit geschätzt werden und die G- Gruppen anhand der geschätzten Wahrscheinlichkeiten definiert werden, gilt, dass X 2 asymptotisch 2 ( G - p - 1 ) + p + 1 i ist = 1 λ i 2 i ( 1 ) (Hosmer, Lemeshow, 1980, S.1052, Satz 2).pGX2χ2(Gp1)+i=1p+1λiχi2(1)

(Hinweis: Die erforderlichen Bedingungen sind in Satz 2 auf Seite 1052 nicht explizit aufgeführt. Wenn man jedoch das Papier und den Beweis aufmerksam liest, werden diese Bedingungen angezeigt.)

Der zweite Term ergibt sich aus der Tatsache, dass die Gruppierung auf geschätzten - dh zufälligen - Größen beruht (Hosmer, Lemeshow, 1980, S.1051).ich=1p+1λichχich2(1)

Anhand von Simulationen zeigten sie, dass der zweite Term (in den in der Simulation verwendeten Fällen) durch approximiert werden kann (Hosmer, Lemeshow, 1980, S.1060).χ2(p1)

Die Kombination dieser beiden Tatsachen ergibt eine Summe von zwei Variablen, eine mit G - p - 1 Freiheitsgraden und eine zweite mit p - 1 Freiheitsgraden oder X 2χ 2 ( G - p - 1 + p - 1 = G - 2 )χ2Gp1p1X2χ2(Gp1+p1=G2)

Die Antwort auf die Frage liegt also im Auftreten des 'gewichteten Chi-Quadrat-Terms' oder in der Tatsache, dass die Gruppen unter Verwendung geschätzter Wahrscheinlichkeiten definiert werden, die selbst Zufallsvariablen sind.

Siehe auch Hosmer Lemeshow (1980) Paper - Theorem 2


quelle
"Die Antwort auf die Frage liegt also im Auftreten des" gewichteten Chi-Quadrat-Terms " und in der Tatsache, dass die Gruppen unter Verwendung geschätzter Wahrscheinlichkeiten definiert werden, die selbst Zufallsvariablen sind." A ) Aufgrund der geschätzten Wahrscheinlichkeiten erhalten Sie eine zusätzliche Reduktion von p + 1, was den Hauptunterschied zum Fall der Kontingenztabelle darstellt (in der nur g-Terme geschätzt werden). B ) Der gewichtete Chi-Quadrat-Term tritt als Korrektur auf, da die Schätzung keine Wahrscheinlichkeitsschätzung oder eine gleichwertige Effizienz ist, und dies führt dazu, dass der Effekt der Reduzierung geringer ist als (p + 1).
Sextus Empiricus
@Martijn Weterings: Habe ich recht, wenn ich zu dem Schluss komme, dass das, was Sie in diesem Kommentar sagen, nicht genau dieselbe Erklärung ist (nicht ganz anders zu sagen) als das, was Sie in Ihrer Antwort sagen? Führt Ihr Kommentar zu der Schlussfolgerung, dass die df ? G2
Meine Antwort erklärt die Intuition hinter dem Unterschied in den Freiheitsgraden im Vergleich zu der Argumentation, die auf "der Teststatistik für den Test für diese Kontingenztabelle" basiert , und erklärt, warum sie unterschiedlich sind (Fallschätzung fester Zellen). Es konzentriert sich auf die "übliche Reduktion", aus der Sie schließen würden, dass der df G-3 wäre. Bestimmte Voraussetzungen für die „übliche Ermäßigung“ sind jedoch nicht erfüllt. Aus diesem Grund (Zufallszellen) erhalten Sie die komplizierteren Terme mit dem gewichteten Chi-Quadrat-Term als Korrektur und Sie erhalten effektiv G-2. Es ist alles andere als ganz anders. χ2
Sextus Empiricus
@ Martijn Weterings, tut mir leid, aber ich kann nicht zustimmen, weil ich in deiner Antwort überhaupt keine Begriffe wie "Zufallszellen" sehe. Meinst du, dass alle deine schönen Bilder (und das meine ich, sie sind sehr schön) erklären Irgendetwas über 'zufällige Zellen' oder sind Sie auf diese Idee gekommen, nachdem Sie meine Antwort gelesen haben?
Tut mir nicht leid Ich bin damit einverstanden, dass meine Antwort keine exakte Antwort ist, um genau die Freiheitsgrade im HL-Test zu zeigen. Das tut mir leid Was Sie haben , ist Chernoff Lehman - Statistik (mit auch zufälligen Zellen) , die eine folgt i=1ks1χ2(1)+i=ksk1λiχi2(1)Verteilung. Mir ist derzeit nicht klar, welcher Teil Sie beunruhigt. Ich hoffe, Sie können diesbezüglich konstruktiver vorgehen. Wenn Sie alles erklären möchten, haben Sie bereits die Artikel dafür. Meine Antwort bezog sich nur auf erklärte den Hauptunterschied zum Kontingenztabellentest. i=1ks1χ2(1)
Sextus Empiricus
2

Der Satz, auf den Sie sich beziehen (der übliche Verkleinerungsteil "übliche Verkleinerung von Freiheitsgraden aufgrund geschätzter Parameter"), wurde größtenteils von RA Fisher vertreten. In ‚Auf der Auslegung von Chi - Quadrat von Kontingenz Tabellen, und der Berechnung von P‘ (1922) , argumentierte er das verwenden Regel und in ‚Die Güte der Anpassung der Regressionsformeln‘ ( 1922) argumentiert er, die Freiheitsgrade um die Anzahl der Parameter zu verringern, die in der Regression verwendet werden, um erwartete Werte aus den Daten zu erhalten. (Es ist interessant festzustellen, dass Menschen den Chi-Quadrat-Test mit falschen Freiheitsgraden seit seiner Einführung im Jahr 1900 über zwanzig Jahre lang missbraucht haben.)(R1)(C1)

Ihr Fall ist von der zweiten Art (Regression) und nicht von der früheren Art (Kontingenztabelle), obwohl die beiden insofern zusammenhängen, als es sich um lineare Einschränkungen der Parameter handelt.

Da Sie die erwarteten Werte auf der Grundlage Ihrer beobachteten Werte modellieren und dies mit einem Modell mit zwei Parametern tun , beträgt die "übliche" Verringerung der Freiheitsgrade zwei plus eins (eine zusätzliche, da die O_i summieren müssen eine Summe, die eine weitere lineare Einschränkung darstellt, und Sie erhalten aufgrund der Ineffizienz der modellierten erwarteten Werte effektiv eine Reduzierung um zwei statt um drei.


Der Chi-Quadrat - Test verwendet eine als Abstandsmaß auszudrücken , wie nahe ein Ergebnis zu den erwarteten Daten ist. In den vielen Versionen der Chi-Quadrat-Tests bezieht sich die Verteilung dieses Abstands auf die Summe der Abweichungen in normalverteilten Variablen (was nur im Grenzfall zutrifft und eine Annäherung darstellt, wenn Sie mit nicht normalverteilten Daten arbeiten). .χ2

Für die multivariate Normalverteilung wird die Dichtefunktion mit dem im Zusammenhang durchχ2

f(x1,...,xk)=e12χ2(2π)k|Σ|

mit die Determinante der Kovarianzmatrix von x|Σ|x

und ist die Mahalanobis - Distanz, die den euklidischen Abstandes verringert , wenn Σ = I .χ2=(xμ)TΣ1(xμ)Σ=I

In seinem 1900 Artikel argumentiert Pearson , dass die -Ebenen sind Sphäroide und dass er in sphärischen Koordinaten, um einen Wert zu integrieren wie umwandeln kann P ( χ 2 > a ) . Welches wird ein einziges Integral.χ2P(χ2>a)


Es ist diese geometrische Darstellung, als Abstand und auch einen Begriff in Dichtefunktion, das kann helfen , die Verringerung der Freiheitsgrade zu verstehen , wenn lineare Beschränkungen vorhanden sind.χ2

Zuerst der Fall einer 2x2-Kontingenztabelle . Sie sollten beachten, dass die vier Werte sind nichtvierunabhängige normalverteilte Variablen. Sie sind stattdessen miteinander verwandt und lassen sich auf eine einzige Variable reduzieren.OiEiEi

Lass uns den Tisch benutzen

Oij=o11o12o21o22

dann wenn die erwarteten Werte

Eij=e11e12e21e22

wo fest dann würde als Chi-Quadrat-Verteilung mit vier Freiheitsgraden verteilt, aber oft schätzen wir daseijbasierend auf demoijund die Variation ist nicht wie vier unabhängige Variablen. Stattdessen stellen wir fest, dass alle Unterschiede zwischenounde gleichsindoijeijeijeijoijoe

(o11e11)=(o22e22)=(o21e21)=(o12e12)=o11(o11+o12)(o11+o21)(o11+o12+o21+o22)

und sie sind effektiv eher eine einzelne Variable als vier. Geometrisch können Sie dies als den -Wert sehen, der nicht auf einer vierdimensionalen Kugel, sondern auf einer einzelnen Linie integriert ist.χ2

Beachten Sie, dass dieser Kontingenztabellentest nicht für die Kontingenztabelle im Hosmer-Lemeshow-Test gilt (es wird eine andere Nullhypothese verwendet!). Siehe auch Abschnitt 2.1 "Der Fall, in dem und β _ bekannt sind" in dem Artikel von Hosmer und Lemshow. In diesem Fall erhalten Sie 2g-1 Freiheitsgrade und nicht g-1 Freiheitsgrade wie in der Regel (R-1) (C-1). Diese (R-1) (C-1) -Regel gilt insbesondere für die Nullhypothese, dass Zeilen- und Spaltenvariablen unabhängig sind (wodurch R + C-1-Einschränkungen für o i - e i erstellt werdenβ0β_oieiWerte). Die Hosmer Lemeshow-Test bezieht sich auf die Hypothese , dass die Zellen nach den Wahrscheinlichkeiten eines logistischen Regressionsmodells auf der Grundlage gefüllt sind Parameter im Fall der Annahme verteilungs A und p + 1 Parameter im Fall der Annahme B. Verteilungs-fourp+1

oeyiβxiϵiϵikann keinen möglichen Wert annehmen! Sie werden nämlich um den Teil reduziert, der auf das Modell projiziert, und insbesondere um 1 Dimension für jeden Parameter im Modell.


Vielleicht können die folgenden Bilder etwas helfen

B(n=60,p=1/6,2/6,3/6)N(μ=np,σ2=np(1p))χ2=1,2,6χ0ae12χ2χd1dχχd1χ

grafische darstellung von chi ^ 2

Das folgende Bild kann verwendet werden, um eine Vorstellung von der Dimensionsverringerung in den Restlaufzeiten zu erhalten. Es erklärt die Methode der Anpassung der kleinsten Quadrate in geometrischen Begriffen.

In blau hast du Maße. In rot haben Sie, was das Modell erlaubt. Das Maß entspricht oft nicht genau dem Modell und weist Abweichungen auf. Sie können dies geometrisch als den Abstand vom gemessenen Punkt zur roten Fläche betrachten.

mu1mu2(1,1,1)(0,1,2)

[x1x2x3]=a[111]+b[012]+[ϵ1ϵ2ϵ3]

(1,1,1)(0,1,2)xϵ

Dieser Unterschied zwischen beobachteten und (modellierten) erwarteten Vektoren ist also eine Summe von Vektoren, die senkrecht zum Modellvektor sind (und dieser Raum hat die Dimension des gesamten Raums abzüglich der Anzahl der Modellvektoren).

In unserem einfachen Beispielfall. Die Gesamtabmessung beträgt 3. Das Modell hat 2 Dimensionen. Und der Fehler hat eine Dimension 1 (unabhängig davon, welchen der blauen Punkte Sie nehmen, zeigen die grünen Pfeile ein einzelnes Beispiel, die Fehlerausdrücke haben immer das gleiche Verhältnis, folgen einem einzelnen Vektor).

Grafische Darstellung der Reduzierung der Regressionsdimension


χ2

oeeenp(1p)

Sextus Empiricus
quelle
2
χ2p>1
enp(1p)
np(1p)
(d1p)β0β
.... trotzdem habe ich erklärt, warum wir die Dimension d-1 nicht erhalten (und stattdessen etwas wie d-3 erwarten sollten, wenn Sie zwei Parameter in die Regression einfügen) und wie sich die Dimensionsreduktion durch eine effiziente Schätzung vorstellen lässt . Es ist der Moore-Spruill-Artikel, der die zusätzlichen Terme (die möglicherweise die effektiven Freiheitsgrade erhöhen) aufgrund dieser Ineffizienz herausarbeitet, und es ist die Hosmer-Lemeshow-Simulation, die zeigt, dass d-2 am besten funktioniert. Diese theoretische Arbeit ist alles andere als intuitiv und die Simulation alles andere als exakt. Meine Antwort ist nur die angeforderte Erklärung für den Unterschied zu d-1.
Sextus Empiricus