Wenn die OLS-Regression auf die kontinuierliche Antwort angewendet wird, kann die multiple Regressionsgleichung aufgebaut werden, indem nacheinander Regressionen der Residuen auf jeder Kovariate ausgeführt werden. Meine Frage ist, gibt es eine Möglichkeit, dies mit logistischer Regression über logistische Regressionsreste zu tun ?
regression
logistic
residuals
Ben Ogorek
quelle
quelle
Antworten:
Bei der standardmäßigen multiplen linearen Regression ergibt sich die Fähigkeit, Schätzungen der gewöhnlichen kleinsten Quadrate (OLS) in zwei Schritten anzupassen, aus dem Frisch-Waugh-Lovell-Theorem . Dieser Satz zeigt, dass die Schätzung eines Koeffizienten für einen bestimmten Prädiktor in einem multiplen linearen Modell gleich der Schätzung ist, die durch Regression der Antwortreste (Residuen aus einer Regression der Antwortvariablen gegen die anderen erklärenden Variablen) gegen die Prädiktorreste (Residuen) erhalten wird aus einer Regression der Prädiktorvariablen gegen die anderen erklärenden Variablen). Offensichtlich suchen Sie nach einer Analogie zu diesem Theorem, die in einem logistischen Regressionsmodell verwendet werden kann.
Bei dieser Frage ist es hilfreich, an die latent-variable Charakterisierung der logistischen Regression zu erinnern :
Bei dieser Charakterisierung des Modells ist die latente Antwortvariable nicht beobachtbar, und stattdessen beobachten wir den Indikator der uns sagt, ob die latente Antwort positiv ist oder nicht. Diese Form des Modells ähnelt der multiplen linearen Regression, außer dass wir eine geringfügig andere Fehlerverteilung verwenden (die logistische Verteilung anstelle der Normalverteilung), und was noch wichtiger ist, wir beobachten nur einen Indikator, der anzeigt, ob die latente Antwort positiv ist oder nicht .Y∗i Yi
Dies führt zu einem Problem bei jedem Versuch, eine zweistufige Anpassung des Modells zu erstellen. Dieses Frisch-Waugh-Lovell-Theorem hängt von der Fähigkeit ab, Zwischenreste für die Antwort und den Prädiktor von Interesse zu erhalten, die gegen die anderen erklärenden Variablen genommen werden. Im vorliegenden Fall können wir nur Residuen aus einer "kategorisierten" Antwortvariablen erhalten. Um einen zweistufigen Anpassungsprozess für die logistische Regression zu erstellen, müssen Sie Antwortreste aus dieser kategorisierten Antwortvariablen verwenden, ohne auf die zugrunde liegende latente Antwort zugreifen zu müssen. Dies scheint mir eine große Hürde zu sein, und obwohl dies keine Unmöglichkeit darstellt, ist es unwahrscheinlich, dass das Modell in zwei Schritten angepasst werden kann.
Im Folgenden werde ich Ihnen einen Bericht darüber geben, was erforderlich wäre, um einen zweistufigen Prozess für eine logistische Regression zu finden. Ich bin mir nicht sicher, ob es eine Lösung für dieses Problem gibt oder ob es einen Beweis für die Unmöglichkeit gibt, aber das Material hier sollte Ihnen helfen, zu verstehen, was erforderlich ist.
Wie würde eine zweistufige logistische Regressionsanpassung aussehen? Angenommen, wir möchten eine zweistufige Anpassung für ein logistisches Regressionsmodell erstellen, bei dem die Parameter bei jedem Schritt über die Maximum-Likelihood-Schätzung geschätzt werden. Wir möchten, dass der Prozess einen Zwischenschritt umfasst, der zu den folgenden zwei Modellen passt:
Wir schätzen die Koeffizienten dieser Modelle (über MLEs) und dies ergibt angepasste Zwischenwerte . Dann passen wir im zweiten Schritt das Modell an:α^0,α^X,γ^0,γ^X
Wie angegeben, hat die Prozedur viele feste Elemente, aber die Dichtefunktionen und in diesen Schritten bleiben nicht spezifiziert (obwohl es sich um Verteilungen mit dem Mittelwert Null handeln sollte, die nicht von den Daten abhängen). Um eine zweistufige Anpassungsmethode unter diesen Bedingungen zu erhalten, müssen wir und auswählen, um sicherzustellen, dass der MLE für in diesem zweistufigen Modellanpassungsalgorithmus der gleiche ist wie der MLE, der aus dem einstufigen logistischen Regressionsmodell erhalten wird über.g f g f βZ
Um zu sehen, ob dies möglich ist, schreiben wir zuerst alle geschätzten Parameter aus dem ersten Schritt:
Sei so dass die Log-Likelihood-Funktion für den zweiten Schritt lautet:ϵi=yi−logistic(α^0−α^1xi)+βZ(zi−γ^0−γ^Xxi)
Wir fordern, dass der Maximierungswert dieser Funktion der MLE des multiplen logistischen Regressionsmodells ist. Mit anderen Worten, wir benötigen:
Ich überlasse es anderen, festzustellen, ob es eine Lösung für dieses Problem oder einen Beweis dafür gibt, dass es keine Lösung gibt. Ich vermute, dass die "Kategorisierung" der latenten Antwortvariablen in einer logistischen Regression es unmöglich macht, einen zweistufigen Prozess zu finden.
quelle
Ich kann die Frage falsch interpretieren. Ich bezweifle, dass Sie die lineare Regressionsgleichung durch Regression auf Residuen auf die von OP angegebene Weise aufbauen können . Die Methode von OP würde nur funktionieren, wenn die Prädiktoren unabhängig voneinander sind.
Angenommen, ist der Ergebnisvektor, ist die Modellmatrix für die bereits im Modell enthaltenen Prädiktoren und Sie möchten einschließen . Sie müssen den Rest der Regression von auf gegen den Rest der Regression von auf zurückführen, um den OLS-Koeffizienten für .y X x1 y X x1 X x1
Hier ist ein einfaches Beispiel:
Modell mit OLS montieren:
Regression auf Residuen:
Das ist falsch, du musst passen:
Was den richtigen Koeffizienten für x2 zurückgibt, stimmt mit den erwarteten Unterschieden in y bei gegebenen Unterschieden in x2 überein, wobei x1 konstant gehalten wird (wobei sowohl y als auch x1 herausgenommen werden).
Abgesehen davon wäre es bei der logistischen Regression sogar noch problematischer, da die logistischen Regressionskoeffizienten selbst ohne verwirrende Beziehungen unter einer ausgelassenen variablen Verzerrung leiden, siehe hier und hier . Wenn also nicht alle Prädiktoren des Ergebnisses im Modell enthalten sind, kann man nicht erhalten unvoreingenommene Schätzungen der wahren Populationsparameter. Darüber hinaus sind mir keine Residuen aus dem Modell bekannt, die einer zweiten logistischen Regression mit allen Werten zwischen 0 und 1 zugänglich wären.
Einige Hinweise zur Regression von Residuen:
quelle
Ich hoffe, ich interpretiere Ihre Frage nicht falsch, da meine Antwort den Wortlaut Ihrer Formulierung etwas ändern wird.
Ich denke, Sie versuchen, Ihr Regressionsmodell zu erstellen, indem Sie jeweils eine unabhängige Variable hinzufügen. Und Sie tun dies, indem Sie beobachten, welche prospektive Variable die höchste Korrelation mit dem Rest Ihrer ersten Regression zwischen Y und X1 aufweist. Die Variable mit der höchsten Korrelation mit diesem ersten Residuum ist also X2. Jetzt haben Sie ein Modell mit zwei unabhängigen Variablen X1 und X2. Und Sie setzen diesen genauen Prozess fort, um X3, X4 usw. auszuwählen. Dies ist ein schrittweiser Vorwärtsprozess.
Sie können genau dasselbe mit der logistischen Regression tun, aus dem einfachen Grund, dass die logistische Regression so ziemlich eine OLS-Regression ist, bei der die abhängige Variable das Protokoll der ungeraden (oder logit) ist. Ob Y ein Logit ist oder nicht, hat jedoch keinen Einfluss auf den oben erwähnten schrittweisen Vorwärtsprozess.
OLS minimiert die Summe der quadratischen Fehler, um sie an die tatsächlichen Daten anzupassen. Die Logit-Regression verwendet einen Maximum-Likelihood-Prozess, der eine Anpassung generiert, die sich nicht wesentlich von OLS unterscheidet. Auch dies (der Anpassungsmechanismus) sollte sich nicht auf den schrittweisen Vorwärtsprozess auswirken, mit dem Sie Ihr Modell für multiple Regression erstellen können, unabhängig davon, ob es sich um eine OLS-Regression oder eine Logit-Regression handelt.
quelle