Wie soll ich die Annahme der Linearität zum Logit für die kontinuierlichen unabhängigen Variablen in der logistischen Regressionsanalyse überprüfen?

13

Ich bin verwirrt mit der Annahme der Linearität des Logits für kontinuierliche Prädiktorvariablen in der logistischen Regressionsanalyse. Müssen wir die lineare Beziehung überprüfen, während wir mithilfe einer univariablen logistischen Regressionsanalyse nach potenziellen Prädiktoren suchen?

In meinem Fall verwende ich die multiple logistische Regressionsanalyse, um Faktoren zu identifizieren, die mit dem Ernährungsstatus (dichotomes Ergebnis) unter den Teilnehmern zusammenhängen. Die kontinuierlichen Variablen, einschließlich Alter, Charlson-Komorbiditäts-Score, Barthel-Index-Score, Handgriffstärke, GDS-Score, BMI usw. Mein erster Schritt besteht darin, mithilfe einer einfachen logistischen Regression nach signifikanten Variablen zu suchen. Muss ich bei einfachen logistischen Regressionsanalysen für jede kontinuierliche Variable die Linearitätsannahme überprüfen? Oder sollte ich es einfach im endgültigen multiplen logistischen Regressionsmodell überprüfen?

Außerdem müssen wir nach meinem Verständnis die nichtlineare stetige Variable transformieren, bevor wir sie in das Modell eingeben. Kann ich die nichtlineare kontinuierliche Variable anstelle der Transformation kategorisieren?

Sze Lin Tan
quelle
1
Sie sollten nicht kategorisieren, besser Splines versuchen!
kjetil b halvorsen

Antworten:

11

Wie ich in meinem Buch Regression Modeling Strategies (2. Ausgabe verfügbar, 04.09.2015, E-Book jetzt verfügbar) ausführlich beschreibe , ist der Versuch, Variablen vor der Modellierung zu transformieren, mit Problemen behaftet. Eine der wichtigsten ist die Verzerrung vom Typ I Fehler- und Konfidenzintervalle. Die Kategorisierung verursacht noch schwerwiegendere Probleme, insbesondere mangelnde Passform und Willkür.

Anstatt dies als ein Problem der "Überprüfung auf mangelnde Passform" zu betrachten, ist es besser, es als Spezifikation eines Modells zu betrachten, das sehr wahrscheinlich passt. Eine Möglichkeit, dies zu tun, besteht darin, den Teilen des Modells Parameter zuzuweisen, die wahrscheinlich stark sind und für die Linearität noch keine vernünftige Annahme ist. In diesem Prozess wird die effektive Stichprobengröße (in Ihrem Fall das Minimum der Anzahl von Ereignissen und der Anzahl von Nichtereignissen) untersucht und die Komplexität in dem Maße zugelassen, wie es der Informationsgehalt der Daten zulässt (z. B. unter Verwendung der Regel 15: 1 Ereignisse: Parameter) des Daumens). Wenn Sie ein flexibles additives parametrisches Modell vorab festlegen, liegt man nur dann falsch, wenn es darauf ankommt, wichtige Interaktionen wegzulassen. Interaktionen sollten im Allgemeinen vorab festgelegt werden.

Sie können mit einem formalen Test (der mit dem R- rmsPaket vereinfacht wurde ) überprüfen, ob im Modell Nichtlinearität erforderlich war. Wenn Sie diese Begriffe jedoch entfernen, wenn sie nicht signifikant sind, entstehen die oben beschriebenen inferentiellen Verzerrungen.

Weitere Informationen finden Sie in den Kursnotizen unter http://biostat.mc.vanderbilt.edu/rms .

Frank Harrell
quelle
Es tut mir leid, dass ich es nicht früher erwähnt habe, aber ich bin mit R nicht vertraut und habe SPSS für die Analysen verwendet. Bedeutet dies aus der bereitgestellten Lösung, dass ich bei Verwendung der effektiven Stichprobengröße (15: 1) alle wichtigen Faktoren (aus der Überprüfung) einbeziehen kann, ohne ihre Linearität zu überprüfen?
Sze Lin Tan
Aus den in meinem Fall durchgeführten univariablen logistischen Regressionsanalysen geht hervor, dass BMI, Wadenumfang und Mitteloberarmumfang einen signifikanten Beitrag zum einfachen logistischen Regressionsmodell des Ernährungszustands leisten (p <0,05). Es stellte sich jedoch heraus, dass sie die Linearitätsannahme nicht erfüllten, als ich die Annahme mit dem Box-Tidwell-Ansatz überprüfte (für jedes einfache logistische Modell). Ich bin mir also nicht sicher, ob ich mit diesen Prädiktoren zu einer multiplen logistischen Regressionsanalyse übergehen soll oder nicht.
Sze Lin Tan
5
Es ist ungültig, Modelle auf der Grundlage einer univariablen Analyse zu erstellen. Sie verwenden eine Variante, um die schrittweise Regression weiterzuleiten, von der bekannt ist, dass sie eine Vielzahl von Problemen verursacht.
Frank Harrell
8

Die logistische Regression setzt KEINE lineare Beziehung zwischen den abhängigen und unabhängigen Variablen voraus. Es wird eine lineare Beziehung zwischen den Log-Quoten der abhängigen Variablen und den unabhängigen Variablen angenommen. (Dies ist hauptsächlich ein Problem bei kontinuierlichen unabhängigen Variablen.) Es gibt einen Test namens Box-Tidwell, den Sie dafür verwenden können. Der Befehl stata lautet boxtid. Ich kenne den SPSS-Befehl leider nicht.

Dies kann hilfreich sein - http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

user114667
quelle
Link ist jetzt unterbrochen.
Alexey Shrub
1

Ich denke, wir sollten kontinuierliche Variablen zeichnen und auf Linearität prüfen, bevor wir sie in einem Regressionsmodell verwenden. Wenn Linearität als vernünftige Annahme erscheint, wird dies in den meisten Fällen wahrscheinlich immer noch im endgültigen multivariablen Regressionsmodell gelten, und wenn nicht, könnte dies hauptsächlich durch Interaktionseffekte verursacht werden, die Sie korrigieren können.

Ja, die Kategorisierung nichtlinearer kontinuierlicher Variablen ist eine Option. Das Problem dabei ist, dass Kategorien in den meisten Fällen willkürlich erscheinen und kleine Unterschiede in den Cut-off-Werten zwischen den Kategorien zu unterschiedlichen Ergebnissen führen können (insbesondere hinsichtlich der statistischen Signifikanz) und abhängig von der Anzahl der Kategorien und der Größe Ihrer Daten können Sie viele wertvolle Informationen in den Daten verlieren.

Ein alternativer Ansatz besteht darin, ein verallgemeinertes additives Modell zu verwenden, bei dem es sich um ein Regressionsmodell handelt, das als logistische Regression angegeben werden kann, in das Sie jedoch nichtlineare unabhängige Variablen als "glattere Funktionen" aufnehmen können. Technisch ist dies in R nicht sehr kompliziert, aber ich weiß nichts über andere Softwarepakete. Diese Modelle identifizieren nichtlineare Beziehungen zu den abhängigen Variablen. Ein Nachteil kann jedoch sein, dass Sie in Ihrer Ausgabe keine ordentlichen Zahlen erhalten, sondern eine visuelle Kurve, die auf statistische Signifikanz getestet wird. Es kommt also darauf an, wie interessiert Sie daran sind, die Auswirkung der nichtlinearen Variablen auf die Ergebnisvariable zu quantifizieren.

Schließlich können Sie verallgemeinerte additive Modelle wie oben beschrieben verwenden, um die Linearitätsannahmen in Ihrem logistischen Regressionsmodell zu testen, zumindest wenn Sie R verwenden.

Schauen Sie sich dieses Buch an (ein ganz anderes Gebiet als Ihres und meines, aber das spielt überhaupt keine Rolle): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577 / ref = sr_1_1? ie = UTF8 & qid = 1440928328 & sr = 8-1 & keywords = zuur + ecology

JonB
quelle
Ich bin mit R nicht vertraut und habe SPSS für die Analysen verwendet. Entschuldigung, dass ich es nicht früher erwähnt habe. Kann ich den Box-Tidwell-Ansatz verwenden (indem ich einen Interaktionsterm zwischen einer kontinuierlichen Variablen und ihrem eigenen natürlichen Protokoll erstelle und den Interaktionsterm zum Modell hinzufüge), um die Linearitätsannahme zu überprüfen?
Sze Lin Tan
1

Da ich Ihre Daten nicht kenne, weiß ich nicht, ob die Kombination dieser drei Variablen - der Basisvariablen, ihres natürlichen Protokolls und eines interaktiven Begriffs - ein Problem darstellt. Ich weiß jedoch, dass ich in der Vergangenheit, wenn ich überlegt habe, drei Begriffe zu kombinieren, oft den konzeptuellen Überblick darüber verliere, was ich messe. Sie müssen genau wissen, was Sie messen, sonst haben Sie Probleme, Ihre Ergebnisse zu erklären. Ich hoffe, das hilft!

user114667
quelle