Ich studiere, wie aus den in der logistischen Regression erhaltenen Koeffizienten ein Konfidenzintervall von 95% für das Odds Ratio erstellt wird. Also, unter Berücksichtigung des logistischen Regressionsmodells,
so dass für die Kontrollgruppe und x = 1 für die Fallgruppe.
Ich habe bereits gelesen, dass der einfachste Weg darin besteht, ein 95% -KI für \ beta zu konstruieren. Dann haben wir die Exponentialfunktion angewendet, d. H.
Meine Fragen sind:
Was ist der theoretische Grund, der dieses Verfahren rechtfertigt? Ich weiß, dass und Maximum-Likelihood-Schätzer invariant sind. Ich kenne jedoch den Zusammenhang zwischen diesen Elementen nicht.
Sollte die Delta-Methode dasselbe 95% -Konfidenzintervall wie das vorherige Verfahren erzeugen? Unter Verwendung der Delta-Methode
Dann,
Wenn nicht, welches ist das beste Verfahren?
quelle
Antworten:
Die Begründung für das Verfahren ist die asymptotische Normalität des MLE für und ergibt sich aus Argumenten, die den zentralen Grenzwertsatz betreffen.β
Die Delta-Methode beruht auf einer linearen (dh Taylor erster Ordnung) Erweiterung der Funktion um die MLE. Anschließend appellieren wir an die asymptotische Normalität und Unparteilichkeit der MLE.
Asymptotisch geben beide die gleiche Antwort. In der Praxis würden Sie jedoch diejenige bevorzugen, die normaler aussieht. In diesem Beispiel würde ich das erste bevorzugen, da das letztere wahrscheinlich weniger symmetrisch ist.
quelle
Ein Vergleich von Konfidenzintervallmethoden an einem Beispiel von ISL
Das Buch "Introduction to Statistical Learning" von Tibshirani, James, Hastie bietet auf Seite 267 ein Beispiel für Konfidenzintervalle für die logistische polynomiale Regression Grad 4 der Lohndaten . Das Buch zitieren:
Im Folgenden finden Sie eine kurze Zusammenfassung von zwei Methoden zum Erstellen solcher Intervalle sowie Kommentare zu deren Implementierung von Grund auf
Wald / Endpoint-Transformationsintervalle
DaPr(xTβ)=F(xTβ) ist eine monotone Transformation vonxTβ
Konkret heißt das rechnenβTx±z∗SE(βTx) und dann die logit-Transformation auf das Ergebnis angewendet wird, um die Unter- und Obergrenze zu erhalten:
Berechnung des Standardfehlers
Die Maximum-Likelihood-Theorie besagt, dass die ungefähre Varianz von unter Verwendung der Kovarianzmatrix der Regressionskoeffizienten unter Verwendung von berechnet werden kannxTβ Σ
Definieren Sie die Entwurfsmatrix und die Matrix alsX V
wobei der Wert der ten Variablen für die ten Beobachtungen ist und die vorhergesagte Wahrscheinlichkeit für die Beobachtung .xi,j j i π^i i
Die Kovarianzmatrix lautet dann: und der StandardfehlerΣ=(XTVX)−1 SE(xTβ)=Var(xTβ)−−−−−−−−√
Die 95% -Konfidenzintervalle für die vorhergesagte Wahrscheinlichkeit können dann als dargestellt werden
Konfidenzintervalle der Delta-Methode
Der Ansatz besteht darin, die Varianz einer linearen Approximation der Funktion zu berechnen und diese zu verwenden, um große Abtastvertrauensintervalle zu konstruieren.F
Dabei ist der Gradient und die geschätzte Kovarianzmatrix. Beachten Sie, dass in einer Dimension:∇ Σ
Wobei die Ableitung von . Dies verallgemeinert sich im multivariaten Fallf F
In unserem Fall ist F die logistische Funktion (die wir ), deren Ableitung istπ(xTβ)
Wir können nun ein Konfidenzintervall unter Verwendung der oben berechneten Varianz konstruieren.
In Vektorform für den multivariaten Fall
Ein offener Abschluss
Ein Blick auf die Normalen QQ-Diagramme sowohl für die Wahrscheinlichkeiten als auch für die negativen logarithmischen Quoten zeigt, dass keine normalverteilt ist. Könnte dies den Unterschied erklären?
Quelle:
quelle
In den meisten Fällen ist der einfachste Weg wahrscheinlich der beste, wie im Zusammenhang mit einer Protokolltransformation auf dieser Seite beschrieben . Stellen Sie sich vor, Ihre abhängige Variable wird auf der Logit-Skala analysiert, wobei statistische Tests durchgeführt und Konfidenzintervalle (CI) auf dieser Logit-Skala definiert werden. Das Verhältnis von Back-Transformation zu Odds besteht einfach darin, diese Ergebnisse in eine Skala zu bringen, die ein Leser leichter erfassen kann. Dies wird beispielsweise auch in der Cox-Überlebensanalyse durchgeführt, bei der die Regressionskoeffizienten (und der 95% -CI) potenziert werden, um Gefährdungsquoten und ihren CI zu erhalten.
quelle