Ich bin verwirrt mit der Annahme der Linearität des Logits für kontinuierliche Prädiktorvariablen in der logistischen Regressionsanalyse. Müssen wir die lineare Beziehung überprüfen, während wir mithilfe einer univariablen logistischen Regressionsanalyse nach potenziellen Prädiktoren suchen?
In meinem Fall verwende ich die multiple logistische Regressionsanalyse, um Faktoren zu identifizieren, die mit dem Ernährungsstatus (dichotomes Ergebnis) unter den Teilnehmern zusammenhängen. Die kontinuierlichen Variablen, einschließlich Alter, Charlson-Komorbiditäts-Score, Barthel-Index-Score, Handgriffstärke, GDS-Score, BMI usw. Mein erster Schritt besteht darin, mithilfe einer einfachen logistischen Regression nach signifikanten Variablen zu suchen. Muss ich bei einfachen logistischen Regressionsanalysen für jede kontinuierliche Variable die Linearitätsannahme überprüfen? Oder sollte ich es einfach im endgültigen multiplen logistischen Regressionsmodell überprüfen?
Außerdem müssen wir nach meinem Verständnis die nichtlineare stetige Variable transformieren, bevor wir sie in das Modell eingeben. Kann ich die nichtlineare kontinuierliche Variable anstelle der Transformation kategorisieren?
quelle
Antworten:
Wie ich in meinem Buch Regression Modeling Strategies (2. Ausgabe verfügbar, 04.09.2015, E-Book jetzt verfügbar) ausführlich beschreibe , ist der Versuch, Variablen vor der Modellierung zu transformieren, mit Problemen behaftet. Eine der wichtigsten ist die Verzerrung vom Typ I Fehler- und Konfidenzintervalle. Die Kategorisierung verursacht noch schwerwiegendere Probleme, insbesondere mangelnde Passform und Willkür.
Anstatt dies als ein Problem der "Überprüfung auf mangelnde Passform" zu betrachten, ist es besser, es als Spezifikation eines Modells zu betrachten, das sehr wahrscheinlich passt. Eine Möglichkeit, dies zu tun, besteht darin, den Teilen des Modells Parameter zuzuweisen, die wahrscheinlich stark sind und für die Linearität noch keine vernünftige Annahme ist. In diesem Prozess wird die effektive Stichprobengröße (in Ihrem Fall das Minimum der Anzahl von Ereignissen und der Anzahl von Nichtereignissen) untersucht und die Komplexität in dem Maße zugelassen, wie es der Informationsgehalt der Daten zulässt (z. B. unter Verwendung der Regel 15: 1 Ereignisse: Parameter) des Daumens). Wenn Sie ein flexibles additives parametrisches Modell vorab festlegen, liegt man nur dann falsch, wenn es darauf ankommt, wichtige Interaktionen wegzulassen. Interaktionen sollten im Allgemeinen vorab festgelegt werden.
Sie können mit einem formalen Test (der mit dem R-
rms
Paket vereinfacht wurde ) überprüfen, ob im Modell Nichtlinearität erforderlich war. Wenn Sie diese Begriffe jedoch entfernen, wenn sie nicht signifikant sind, entstehen die oben beschriebenen inferentiellen Verzerrungen.Weitere Informationen finden Sie in den Kursnotizen unter http://biostat.mc.vanderbilt.edu/rms .
quelle
Die logistische Regression setzt KEINE lineare Beziehung zwischen den abhängigen und unabhängigen Variablen voraus. Es wird eine lineare Beziehung zwischen den Log-Quoten der abhängigen Variablen und den unabhängigen Variablen angenommen. (Dies ist hauptsächlich ein Problem bei kontinuierlichen unabhängigen Variablen.) Es gibt einen Test namens Box-Tidwell, den Sie dafür verwenden können. Der Befehl stata lautet boxtid. Ich kenne den SPSS-Befehl leider nicht.
Dies kann hilfreich sein - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm
quelle
Ich denke, wir sollten kontinuierliche Variablen zeichnen und auf Linearität prüfen, bevor wir sie in einem Regressionsmodell verwenden. Wenn Linearität als vernünftige Annahme erscheint, wird dies in den meisten Fällen wahrscheinlich immer noch im endgültigen multivariablen Regressionsmodell gelten, und wenn nicht, könnte dies hauptsächlich durch Interaktionseffekte verursacht werden, die Sie korrigieren können.
Ja, die Kategorisierung nichtlinearer kontinuierlicher Variablen ist eine Option. Das Problem dabei ist, dass Kategorien in den meisten Fällen willkürlich erscheinen und kleine Unterschiede in den Cut-off-Werten zwischen den Kategorien zu unterschiedlichen Ergebnissen führen können (insbesondere hinsichtlich der statistischen Signifikanz) und abhängig von der Anzahl der Kategorien und der Größe Ihrer Daten können Sie viele wertvolle Informationen in den Daten verlieren.
Ein alternativer Ansatz besteht darin, ein verallgemeinertes additives Modell zu verwenden, bei dem es sich um ein Regressionsmodell handelt, das als logistische Regression angegeben werden kann, in das Sie jedoch nichtlineare unabhängige Variablen als "glattere Funktionen" aufnehmen können. Technisch ist dies in R nicht sehr kompliziert, aber ich weiß nichts über andere Softwarepakete. Diese Modelle identifizieren nichtlineare Beziehungen zu den abhängigen Variablen. Ein Nachteil kann jedoch sein, dass Sie in Ihrer Ausgabe keine ordentlichen Zahlen erhalten, sondern eine visuelle Kurve, die auf statistische Signifikanz getestet wird. Es kommt also darauf an, wie interessiert Sie daran sind, die Auswirkung der nichtlinearen Variablen auf die Ergebnisvariable zu quantifizieren.
Schließlich können Sie verallgemeinerte additive Modelle wie oben beschrieben verwenden, um die Linearitätsannahmen in Ihrem logistischen Regressionsmodell zu testen, zumindest wenn Sie R verwenden.
Schauen Sie sich dieses Buch an (ein ganz anderes Gebiet als Ihres und meines, aber das spielt überhaupt keine Rolle): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecology
quelle
Da ich Ihre Daten nicht kenne, weiß ich nicht, ob die Kombination dieser drei Variablen - der Basisvariablen, ihres natürlichen Protokolls und eines interaktiven Begriffs - ein Problem darstellt. Ich weiß jedoch, dass ich in der Vergangenheit, wenn ich überlegt habe, drei Begriffe zu kombinieren, oft den konzeptuellen Überblick darüber verliere, was ich messe. Sie müssen genau wissen, was Sie messen, sonst haben Sie Probleme, Ihre Ergebnisse zu erklären. Ich hoffe, das hilft!
quelle