Auswahl zwischen Transformationen in der logistischen Regression
8
Bei der linearen Regression werden die Transformationen erklärender Variablen so durchgeführt, dass eine maximale Korrelation mit der abhängigen Variablen besteht.
Was ist das beste Maß für die Wahl zwischen mehreren Transformationen in der logistischen Regression, da die abhängige Variable binär und nicht kontinuierlich ist?
Das Endziel besteht darin, den Auftrieb (Vorhersagekraft) des Modells zu maximieren.
Das von der logistischen Regression (und vielen anderen Methoden) verwendete Optimalitätskriterium ist die Wahrscheinlichkeitsfunktion. Es wird verwendet, um einschließlich mehrerer zu schätzen, die ein , um quadratische, kubische und stückweise Polynomanpassungen (Spline) zu erzielen. Es kann auch verwendet werden, um aus konkurrierenden Transformationen von auszuwählen, aber der Akt der Auswahl wird nicht in der Informationsmatrix widergespiegelt, so dass die resultierende Varianz vonββX.X.X.β^wird zu klein sein, so dass Konfidenzintervalle nicht die angegebene Abdeckungswahrscheinlichkeit haben. Wenn Sie die Transformationsschätzung zu einem expliziten Ziel der Modellanpassung machen (und Regressionssplines sind hierfür hervorragende Möglichkeiten), behalten Sie alle Aspekte der statistischen Inferenz bei. Abhängig von der Stichprobengröße kann ein eingeschränkter (in beiden Schwänzen linearer) kubischer Spline mit 4 Knoten, der 3 Parameter erfordert, eine gute Wahl sein.
Danke für die Antwort. Folgendes sind meine Bedenken: 1) Wird eine univariant gewählte Transformation dieselbe sein, wenn ich eine multivariate wählen würde? Für mich gibt es keinen Grund zu der Annahme, dass die univariate Auswahl in Kombination mit anderen transformierten Variablen die beste ist. 2) Ich bevorzuge die Verwendung von Splines nicht, da die Möglichkeit einer Überanpassung und einer schlechten Leistung in Validierungssätzen besteht. Ich dachte daran, die Box-Cox-Transformation für erklärende Variablen zu verwenden und die beste Transformation mit dem optimalen Wert von . Macht das Sinn? Irgendwelche Gedanken? λ
Jatin
Nein, das schwingt nicht mit. Box-Cox wird für kontinuierliches univariates , und viele Benutzer von Box-Cox wissen nicht, Unsicherheit in bestrafen oder ob Box-Cox eine starke Annahme über den (Null) macht. Splines passen nicht mehr als zu viele Prädiktoren an, und Sie können den Anpassungsgrad anhand der Anzahl der Knoten und der Schrumpfung steuern (Bestrafung; siehe R- Funktion für quadratische Bestrafung). Wie Sie sagten, ist es am besten, Transformationen eher angepasst als univariat zu schätzen. Y.\ lambarmslrm
Frank Harrell
6
Nein, in linearen Modellen wird (oder sollte) die Transformation nicht durchgeführt, um eine maximale Korrelation mit der abhängigen Variablen zu erzielen. Es sollte entweder a) die Modellannahmen über die Residuen erfüllen oder b) eine vernünftigere erklärende Variable haben; das heißt, eine, die im Wesentlichen Sinn macht. Wie @Andy betont, ist dies möglicherweise nicht ausreichend. In diesem Fall würde ich dann nach einer alternativen Regressionsmethode suchen (siehe unten), anstatt eine seltsame Transformation vorzunehmen. Beispiel wird ein Modell wie ein Durcheinander sein, um es zu erklären.Y.= b0+ b1x.211+ b2x.732
In der logistischen Regression (zumindest in der dichotomen Logistik) gibt es weniger Annahmen (und meines Wissens keine über die Residuen), daher gilt nur b).
Selbst für lineare Modelle würde ich die Verwendung von b) bevorzugen. Und wenn die Annahmen nicht erfüllt sind, verwenden Sie eine andere Form der Regression (könnte eine robuste Regression sein, könnte ein Spline-Modell sein, könnte ein Polynom sein).
Die Aussage have a more sensible explanatory variableist ziemlich vieldeutig und sollte erweitert werden. Ich würde es normalerweise als eine Transformation verstehen, die eine einfachere Interpretation der Regressionskoeffizienten ermöglicht, aber offensichtlich an und für sich nicht ausreicht (entweder für OLS oder für logistische Regression).
Andy W
Wie ich in meinem Beitrag sagte, ist die Vorhersagekraft von größter Bedeutung. Sinnvolle erklärende Variablen zu haben ist wünschenswert, hat aber keine Priorität. Wenn mir einen besseren Auftrieb gibt, ist dies in diesem Stadium akzeptabel. Die Frage ist, wie man die besten Transformationen auswählt, um den maximalen Auftrieb zu erzielen. Y.= b0+ b1x.211+ b2x.732
Jatin
3
Bei der verallgemeinerten linearen Modellierung wird das minimierte mathematische Maß als "Abweichung" (-2 * log-Wahrscheinlichkeit) bezeichnet. Es gibt verschiedene Arten von Residuen, die entwickelt werden können. Die "Abweichungsreste" sind die einzelnen Begriffe in einem bescheiden komplexen Ausdruck. Ich denke, dass dies am verständlichsten ist, wenn es auf kategoriale Variablen angewendet wird. Bei einer kategorialen Variablen mit logistischer Regression sind dies nur die Unterschiede zwischen den logarithmischen Quoten (Modell) und den logarithmischen Quoten (Daten), bei kontinuierlichen Variablen sind sie jedoch etwas komplexer. Abweichungsreste werden im iterativen Prozess minimiert. In dieser Beschreibung auf der UCLA-Website finden Sie einige schöne Darstellungen von Abweichungsresten.
Es scheint mir, dass die Analyse des "Auftriebs" eher auf der Skala der Wahrscheinlichkeiten als auf der Skala der logarithmischen Quoten oder Quoten oder der Wahrscheinlichkeiten erfolgt. Ich sehe, dass Frank Harrell einige Ratschläge gegeben hat und jeder wahrgenommene Streit zwischen Frank und mir durch eine massive Gewichtung von Franks Meinung gelöst werden sollte. (Mein Rat wäre, Franks RMS-Buch zu kaufen.) Ich bin überrascht, dass er keinen Rat gab, um bestrafte Methoden in Betracht zu ziehen, und dass er keine Warnung vor Überanpassung herausgab. Ich würde denken, dass die Auswahl einer Transformation, nur weil sie den "Auftrieb" maximiert, der Auswahl von Modellen entspricht, die die "Genauigkeit" maximieren. Ich weiß , dass er diese Strategie nicht unterstützt.
rms
lrm
Nein, in linearen Modellen wird (oder sollte) die Transformation nicht durchgeführt, um eine maximale Korrelation mit der abhängigen Variablen zu erzielen. Es sollte entweder a) die Modellannahmen über die Residuen erfüllen oder b) eine vernünftigere erklärende Variable haben; das heißt, eine, die im Wesentlichen Sinn macht. Wie @Andy betont, ist dies möglicherweise nicht ausreichend. In diesem Fall würde ich dann nach einer alternativen Regressionsmethode suchen (siehe unten), anstatt eine seltsame Transformation vorzunehmen. Beispiel wird ein Modell wie ein Durcheinander sein, um es zu erklären.Y.= b0+ b1x.211+ b2x.732
In der logistischen Regression (zumindest in der dichotomen Logistik) gibt es weniger Annahmen (und meines Wissens keine über die Residuen), daher gilt nur b).
Selbst für lineare Modelle würde ich die Verwendung von b) bevorzugen. Und wenn die Annahmen nicht erfüllt sind, verwenden Sie eine andere Form der Regression (könnte eine robuste Regression sein, könnte ein Spline-Modell sein, könnte ein Polynom sein).
quelle
have a more sensible explanatory variable
ist ziemlich vieldeutig und sollte erweitert werden. Ich würde es normalerweise als eine Transformation verstehen, die eine einfachere Interpretation der Regressionskoeffizienten ermöglicht, aber offensichtlich an und für sich nicht ausreicht (entweder für OLS oder für logistische Regression).Bei der verallgemeinerten linearen Modellierung wird das minimierte mathematische Maß als "Abweichung" (-2 * log-Wahrscheinlichkeit) bezeichnet. Es gibt verschiedene Arten von Residuen, die entwickelt werden können. Die "Abweichungsreste" sind die einzelnen Begriffe in einem bescheiden komplexen Ausdruck. Ich denke, dass dies am verständlichsten ist, wenn es auf kategoriale Variablen angewendet wird. Bei einer kategorialen Variablen mit logistischer Regression sind dies nur die Unterschiede zwischen den logarithmischen Quoten (Modell) und den logarithmischen Quoten (Daten), bei kontinuierlichen Variablen sind sie jedoch etwas komplexer. Abweichungsreste werden im iterativen Prozess minimiert. In dieser Beschreibung auf der UCLA-Website finden Sie einige schöne Darstellungen von Abweichungsresten.
Es scheint mir, dass die Analyse des "Auftriebs" eher auf der Skala der Wahrscheinlichkeiten als auf der Skala der logarithmischen Quoten oder Quoten oder der Wahrscheinlichkeiten erfolgt. Ich sehe, dass Frank Harrell einige Ratschläge gegeben hat und jeder wahrgenommene Streit zwischen Frank und mir durch eine massive Gewichtung von Franks Meinung gelöst werden sollte. (Mein Rat wäre, Franks RMS-Buch zu kaufen.) Ich bin überrascht, dass er keinen Rat gab, um bestrafte Methoden in Betracht zu ziehen, und dass er keine Warnung vor Überanpassung herausgab. Ich würde denken, dass die Auswahl einer Transformation, nur weil sie den "Auftrieb" maximiert, der Auswahl von Modellen entspricht, die die "Genauigkeit" maximieren. Ich weiß , dass er diese Strategie nicht unterstützt.
quelle