Wir haben Daten mit einem binären Ergebnis und einigen Kovariaten. Ich habe die Daten mithilfe der logistischen Regression modelliert. Nur eine einfache Analyse, nichts Außergewöhnliches. Die endgültige Ausgabe soll eine Dosis-Wirkungs-Kurve sein, in der wir zeigen, wie sich die Wahrscheinlichkeit für eine bestimmte Kovariate ändert. Etwas wie das:
Wir erhielten einige Kritik von einem internen Gutachter (kein reiner Statistiker) für die Wahl der logistischen Regression. Die logistische Regression nimmt an (oder definiert), dass der Wendepunkt der S-förmigen Kurve auf der Wahrscheinlichkeitsskala bei einer Wahrscheinlichkeit von 0,5 liegt. Er argumentierte, dass es keinen Grund geben würde anzunehmen, dass der Wendepunkt tatsächlich bei einer Wahrscheinlichkeit von 0,5 liegt, und wir sollten ein anderes Regressionsmodell wählen, das es dem Wendepunkt ermöglicht, so zu variieren, dass die tatsächliche Position datengesteuert ist.
Zuerst war ich von seiner Argumentation überrascht, da ich nie über diesen Punkt nachgedacht habe. Ich hatte keine Argumente dafür, warum es gerechtfertigt wäre anzunehmen, dass der Wendepunkt bei 0,5 liegt. Nach einigen Recherchen habe ich immer noch keine Antwort auf diese Frage.
Ich bin auf eine logistische Regression mit 5 Parametern gestoßen, für die der Wendepunkt ein zusätzlicher Parameter ist, aber es scheint, dass dieses Regressionsmodell normalerweise verwendet wird, wenn Dosis-Wirkungs-Kurven mit einem kontinuierlichen Ergebnis erstellt werden. Ich bin nicht sicher, ob und wie es auf binäre Antwortvariablen erweitert werden kann.
Ich denke, meine Hauptfrage ist, warum oder wann es in Ordnung ist anzunehmen, dass der Wendepunkt für eine logistische Regression bei 0,5 liegt. Ist es überhaupt wichtig? Ich habe noch nie jemanden gesehen, der ein logistisches Regressionsmodell angepasst und die Frage des Wendepunkts explizit diskutiert hat. Gibt es Alternativen zum Erstellen einer Dosis-Wirkungs-Kurve, bei der der Wendepunkt nicht unbedingt bei 0,5 liegt?
Der Vollständigkeit halber der R-Code zur Erzeugung des obigen Bildes:
dat <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")
dat$rank <- factor(dat$rank)
logit <- glm(admit ~ gre + gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,ylab="Probability", xlab="Dose")
Bearbeiten 1:
Um nur zu dem hinzuzufügen, was Scortchi in einem der Kommentare gesagt hat: Der Rezensent argumentierte tatsächlich, dass es biologisch wahrscheinlicher sein könnte, dass die Änderung der Krümmung früher als 0,5 auftritt. Daher sein Widerstand gegen die Annahme, dass der Wendepunkt bei 0,5 liegt.
Bearbeiten 2:
Als Reaktion auf den Kommentar von Frank Harrell:
Als Beispiel habe ich mein Modell oben so modifiziert, dass es einen quadratischen und einen kubischen Term enthält gre
(in diesem Beispiel die "Dosis").
logit <- glm(admit ~ gre+I(gre^2)+I(gre^3)+ gpa + rank, family = binomial(link = "logit"), data = dat)
newdata <- data.frame(admit=1, gre = seq(-2000,8000,1), gpa = 2.5, rank = factor(1,c(1,2,3,4)))
pp <- predict(logit, newdata, type = "response", se.fit = TRUE)
plot(newdata$gre, pp$fit, type="l", col="black", lwd=2,xlim=c(-2000,4000),ylab="Probability", xlab="Dose")
Trotz der Tatsache, dass es gre
in diesem Fall wahrscheinlich nicht sinnvoll ist, einen quadratischen und einen kubischen Term hinzuzufügen , sehen wir, dass sich die Form der Dosis-Wirkungs-Kurve geändert hat. In der Tat haben wir jetzt zwei Wendepunkte bei etwa 0,25 und nahe 0,7.
Antworten:
Wie von @scortchi angesprochen, hatte der Prüfer den falschen Eindruck, dass es nicht möglich ist, nichtlineare Effekte von Prädiktoren auf der Logit-Skala im Kontext der logistischen Regression zu modellieren. Das ursprüngliche Modell ging schnell von der Linearität aller Prädiktoren aus. Durch die Lockerung der Linearitätsannahme, beispielsweise unter Verwendung eingeschränkter kubischer Splines (natürlicher Splines), ist die gesamte Form der Kurve flexibel und der Wendepunkt ist kein Problem mehr. Hätte es einen einzigen Prädiktor gegeben und wäre er mit einem Regressions-Spline erweitert worden, könnte man sagen, dass das logistische Modell nur die Annahmen der Glätte und Unabhängigkeit der Beobachtungen trifft.
quelle
Es scheint mir, dass der Rezensent nur nach etwas gesucht hat, das er sagen kann. Vor der Prüfung solcher Merkmale der Spezifikation wie der impliziten Wendepunkt, es gibt eine Tonne von Annahmen, die wir gemacht haben, um zu einem schätzen Modell zu gelangen. Alle könnten in Frage gestellt und diskutiert werden - die Verwendung der Logistikfunktion selbst ist ein mögliches primäres Ziel: Wer hat uns gesagt, dass die bedingte Verteilung des zugrunde liegenden Fehlerterms logistisch ist? Niemand.
Das Problem ist also: Was bedeutet die Änderung der Krümmung? Wie wichtig für das untersuchte Phänomen der realen Welt ist möglicherweise der Punkt, an dem diese Änderung der Krümmung auftritt, sodass wir in Betracht ziehen würden, sie "datengesteuert" zu machen? Sich weiter vom Prinzip der Sparsamkeit entfernen?
Die Frage ist nicht "warum sollte der Wendepunkt bei 0,5 liegen?" Aber "wie irreführend kann es für unsere Schlussfolgerungen sein, wenn es bei 0,5 belassen wird?".
quelle
In mho ist die logit-Regression eine vernünftige Wahl für die Dosisreaktion. Natürlich können Sie Probit, Log-Log, C-Log-Log-Link verwenden und die Anpassungsgüte vergleichen (DEV, BIC, CAIC usw.). Die einfachste logit-Regression bietet jedoch eine komfortable formale Bewertung des Wendepunkts LD50 = -b0 / b1. Wir erinnern uns, dass es ein spezifischer Punkt ist, für den wir die minimale Unsicherheit erhalten (vgl. LD16, LD84 und alle anderen haben einen breiteren CI, siehe "Probit-Analyse" von Finney, 1947, 1977). immer (?) Es war besser, den Logarithmus der Dosis zu verwenden und dann einfach den 95% -KI in die ursprüngliche Skala umzuwandeln. Was ist die Natur der anderen Kovariaten im Modell? Ich spiele auf die Möglichkeit an, einen Multi-Modell-Ansatz zu verwenden ... Natürlich sind die Splines flexibel, aber die formalen Parameter werden einfacher interpretiert!
Siehe http://www.epa.gov/ncea/bmds/bmds_training/software/overp.htm
quelle
Der Wendepunkt von 0,5 ist ein kleiner Teil einer größeren Frage: Die logistische Gleichung ist konstruktionssymmetrisch. Und in den meisten Ableitungen davon hat der modellierte Effekt einen Grund, symmetrisch zu sein. Wenn beispielsweise ein Spieler gewinnt, verliert der andere Spieler, oder der für die Sättigung verantwortliche Effekt ist der gleiche physikalische Effekt, der für das anfängliche Wachstum usw. verantwortlich ist. Wenn es also einen Grund gibt, warum der Ursprung des Verhaltens mit niedrigem X derselbe ist Wenn sich die rechte Hand benimmt oder aus irgendeinem anderen Grund das Problem symmetrisch ist, haben Sie Ihre Rechtfertigung.
Wenn nicht, dann ist das vielleicht einfachste Modell die verallgemeinerte logistische Gleichung. Es enthält mehr Parameter, und Sie möchten möglicherweise eine Einschränkung hinzufügen, damit nicht alle Parameter frei sind. Dies ist wahrscheinlich wünschenswerter als die von Ihnen hinzugefügten Kludges, da diese Regale hinzufügen, in denen die erste Ableitung hin und her schwingt - so etwas führt tendenziell zu fiktiven falschen Punkten des lokalen Gleichgewichts, wenn Sie versuchen, einen Erwartungswert davon zu optimieren Verteilung. Die verallgemeinernde Form unterbricht die Symmetrie auf reibungslose Weise.
quelle