Gibt es eine Annahme über die Antwortvariable der logistischen Regression?
Angenommen, wir haben Datenpunkte. Es scheint, dass die Antwort von einer Bernoulli-Distribution mit . Daher sollten wir Bernoulli-Verteilungen mit unterschiedlichen Parametern .Y i p i = logit1000 p
Sie sind also "unabhängig", aber nicht "identisch".
Habe ich recht?
PS. Ich habe die logistische Regression aus der Literatur zum "maschinellen Lernen" gelernt, in der wir die Zielfunktion optimieren und prüfen, ob sie zum Testen von Daten geeignet ist, ohne zu viel über Annahmen zu reden.
Meine Frage begann mit diesem Beitrag Linkfunktion im verallgemeinerten linearen Modell verstehen. Hier versuche ich, mehr über statistische Annahmen zu erfahren.
regression
logistic
assumptions
iid
Haitao Du
quelle
quelle
Antworten:
Von Ihrer vorherigen Frage haben Sie gelernt , dass GLM in Bezug auf die Wahrscheinlichkeitsverteilung beschrieben wird, linearen Prädiktor und die Verknüpfungsfunktion und wird wie folgt beschriebenη g
Dabei ist eine Logit-Link-Funktion, und es wird angenommen, dass einer Bernoulli-Verteilung folgtg Y
Jedes folgt der Bernoulli-Verteilung mit seinem eigenen Mittelwert , der von abhängig ist . Wir gehen nicht davon aus, dass jedes aus derselben Verteilung mit demselben Mittelwert stammt (dies wäre das Intercept-Only-Modell ), sondern dass alle Mittelwerte unterschiedlich sind. Wir gehen davon aus, dass ‚s sind unabhängig , dh wir haben keine Sorgen zu machen über Dinge wie Autokorrelation zwischen aufeinanderfolgenden Werte usw.Yi μi X Yi Yi=g−1(μ) Yi Yi
Die iid- Annahme bezieht sich auf Fehler in der linearen Regression (dh Gaußscher GLM), in der sich das Modell befindet
wo , so haben wir iid Rauschen um . Aus diesem Grund sind Sie an einer Residuendiagnose interessiert und achten auf den Vergleich von Residuen und angepasstem Diagramm . Im Falle einer GLM-ähnlichen logistischen Regression ist dies nicht so einfach, da es keinen additiven Rauschbegriff wie beim Gaußschen Modell gibt (siehe hier , hier und hier ). Wir möchten weiterhin, dass die Residuen "zufällig" bei Null liegen, und wir möchten keine Trends darin sehen, da dies darauf hindeutet, dass einige Effekte im Modell nicht berücksichtigt werden, dies jedoch nicht vorausgesetzt wird normal und / oderεi∼N(0,σ2) μi iid . Siehe auch das Thema Über die Bedeutung der iid-Annahme im statistischen Lernprozess .
Beachten Sie als Randnotiz, dass wir sogar die Annahme fallen lassen können, dass jedes von derselben Art von Verteilung stammt. Es gibt Modelle (ohne GLM), die davon ausgehen, dass verschiedene unterschiedliche Verteilungen mit unterschiedlichen Parametern haben können, dh dass Ihre Daten aus einer Mischung verschiedener Verteilungen stammen . In diesem Fall würden wir auch annehmen, dass die Werte unabhängig sind , da abhängige Werte, die von unterschiedlichen Verteilungen mit unterschiedlichen Parametern stammen (dh typische Daten der realen Welt), in den meisten Fällen zu kompliziert (oft unmöglich) zu modellieren sind.Yi Yi Yi
quelle
Wie bereits erwähnt, berücksichtigen wir häufig den Fall von ID- Fehlern bei der linearen Regression, haben jedoch in den meisten verallgemeinerten linearen Modellen (einschließlich der logistischen Regression) keine direkten Entsprechungen. In der logistischen Regression verwenden wir normalerweise die Annahme der Unabhängigkeit von Ergebnissen, dass alle eine sehr strenge Beziehung haben (dh lineare Auswirkungen auf die logarithmischen Wahrscheinlichkeiten). Dies führt jedoch zu Zufallsvariablen, die weder identisch sind, noch in einen konstanten Term plus einen ID-Fehler zerlegbar sind, wie dies bei der linearen Regression der Fall ist.
Wenn Sie wirklich zeigen möchten, dass die Antworten in irgendeiner Beziehung zueinander stehen, folgen Sie mir für den nächsten Absatz. Wisse nur, dass diese Idee etwas abseits der ausgetretenen Pfade liegt. Möglicherweise erhalten Sie nicht die volle Anerkennung für diese Antwort in einem Finale, wenn Ihr Professor nicht geduldig genug ist.
Sie kennen vielleicht die inverse-cdf-Methode zum Generieren von Zufallsvariablen. Wenn nicht, hier ist eine Auffrischung: Wenn die kumulative Verteilungsfunktion , dann kann ich aus zufällige Ziehungen erzeugen, indem ich zuerst die zufälligen Ziehungen dann berechne . In welcher Beziehung steht dies zur logistischen Regression? Nun, wir könnten denken, dass der Erzeugungsprozess für unsere Antworten zwei Teile hat; einen festen Teil, der die Kovariaten mit den Erfolgswahrscheinlichkeiten in Beziehung setzt, und einen zufälligen Teil, der den Wert der Zufallsvariablen bestimmt, der vom festen Teil abhängig ist. Der feste Teil wird durch die Verknüpfungsfunktion der logistischen Regression definiert, dhX FX X q∼uniform(0,1) X=F−1X(q) p=expit(βo+β1x) . Definieren für den zufälligen Teil als cdf für eine Bernoulli-Verteilung mit der Wahrscheinlichkeit . Dann können wir uns , dass die Antwortvariable durch die folgenden drei Schritte generiert wird:FY(y|p) p Yi
1.)pi=expit(βo+β1xi)
2.)qi∼uniform(0,1)
3.)Yi=F−1(qi|pi)
Dann ist die Standardannahme in der logistischen Regression, dass ist.qi
quelle