Transformieren Sie kontinuierliche Variablen für die logistische Regression

11

Ich habe große Umfragedaten, eine binäre Ergebnisvariable und viele erklärende Variablen, einschließlich binärer und kontinuierlicher. Ich baue Modellsätze (experimentiere sowohl mit GLM als auch mit gemischtem GLM) und verwende informationstheoretische Ansätze, um das Topmodell auszuwählen. Ich habe die Erklärungen (sowohl kontinuierlich als auch kategorisch) sorgfältig auf Korrelationen untersucht und verwende nur diejenigen im selben Modell, deren Pearson- oder Phicorr-Koeffizient kleiner als 0,3 ist. Ich möchte allen meinen kontinuierlichen Variablen eine faire Chance geben, um das Topmodell zu konkurrieren. Nach meiner Erfahrung verbessert die Transformation derjenigen, die es benötigen, basierend auf dem Versatz das Modell, an dem sie teilnehmen (niedrigerer AIC).

Meine erste Frage lautet: Ist dies eine Verbesserung, weil die Transformation die Linearität mit dem Logit verbessert? Oder verbessert die Korrektur des Versatzes das Gleichgewicht der erklärenden Variablen irgendwie, indem die Daten symmetrischer gemacht werden? Ich wünschte, ich hätte die mathematischen Gründe dafür verstanden, aber im Moment wäre es großartig, wenn jemand dies in einfachen Worten erklären könnte. Wenn Sie Referenzen haben, die ich verwenden könnte, würde ich es wirklich schätzen.

Viele Internetseiten sagen, dass Sie die Variablen nicht transformieren sollten, da Normalität keine Annahme bei der binären logistischen Regression ist. Ich habe jedoch das Gefühl, dass ich einige Variablen im Vergleich zu anderen benachteilige, wenn ich meine Variablen nicht transformiere. Dies kann sich auf das Topmodell auswirken und die Inferenz ändern (normalerweise nicht, in einigen Datensätzen jedoch). Einige meiner Variablen weisen eine bessere Leistung auf, wenn das Protokoll transformiert wird, andere im Quadrat (unterschiedliche Richtung des Versatzes) und andere nicht transformiert.

Könnte mir jemand eine Richtlinie geben, worauf ich bei der Transformation erklärender Variablen für die logistische Regression achten sollte, und wenn nicht, warum nicht?

Zsuzsa
quelle
2
Tatsächlich gibt es bei der logistischen Regression keine Annahme der Normallität (oder in diesem Fall der logistischen Verteilung). Die Verknüpfungsfunktion (manchmal mit ) wird zur Modellierung der Beziehung zwischen der Wahrscheinlichkeit der Beobachtung einer ( ) mit den Kovariaten durch . Eine schlechte Passform / Leistung kann auf die Wahl der Verbindungsfunktion zurückzuführen sein. Eine Alternative zum Sortieren dieses Problems besteht in der Verwendung einer flexibleren Verteilung, siehe zum Beispiel dieses Dokument . F - 1 1 0 P ( Y = 1 | β , X ) = F ( X β )FF110P(Y=1|β,X)=F(Xβ)
Obwohl in einem anderen Kontext geschrieben, ist vieles, was Sie verlangen, in meiner Antwort (oder in den Links in meiner Antwort) hier enthalten: Führen normalverteilte X und Y eher zu normalverteilten Residuen?
Gung - Reinstate Monica

Antworten:

3

Sie sollten vorsichtig sein, ob Sie die Variablen nur aus statistischen Gründen transformieren oder nicht . Sie müssen auf Interpretation achten. ¿Ist es vernünftig, dass Ihre Antworten in linear sind ? oder ist es in wahrscheinlicher linear ? Und um das zu diskutieren, müssen wir Ihre Variablen kennen ... Nur als Beispiel: Unabhängig von der Modellanpassung würde ich nicht glauben, dass die Sterblichkeit eine lineare Funktion des Alters ist!log ( x )xlog(x)

Da Sie sagen, Sie haben "große Datenmengen", könnten Sie in Splines schauen, um die Daten über Transformationen sprechen zu lassen ... zum Beispiel das Paket mgcv in R. Aber selbst wenn Sie eine solche Technologie (oder eine andere Methode zur automatischen Suche nach Transformationen) verwenden, können Sie die Der ultimative Test besteht darin, sich zu fragen, was wissenschaftlich sinnvoll ist . ¿Was machen andere Personen in Ihrem Bereich mit ähnlichen Daten?

kjetil b halvorsen
quelle
Vielen Dank für die Unterstützung meiner Sorgen: In der Tat habe ich darüber nachgedacht, was biologisch sinnvoll ist. Das Problem ist, dass ich tatsächlich zwei verwandte Datensätze habe und aus beiden gleichzeitig Schlussfolgerungen ziehen möchte. In einer Teilmenge ist die Dichtevariable in den nicht transformierten Modellen am besten, während in der anderen Protokolltransformation die beste ist. Die Protokolltransformation verbessert die Beziehung in dem Dataset, das die niedrigeren Werte für diese Variable aufweist. Daher wird es meiner Meinung nach sehr schwierig sein, diese beiden Datasets miteinander in Einklang zu bringen, es sei denn, ich lasse die Variable in beiden nicht transformiert.
Zsuzsa
1
Die Experten auf einem Gebiet sind selten in der Lage, die "richtigen" Transformationen für Variablen im Voraus zu kennen. Ich sehe fast nie lineare Beziehungen. Wenn die Stichprobengröße dies rechtfertigt, entspanne ich diese Annahme mithilfe von Regressionssplines. Ich mache das Ergebnis mit Bildern interpretierbar.
Frank Harrell
3

Das entscheidende Problem ist, welche Zahlen in der realen Welt dargestellt werden sollen und welche hypothetische Beziehung zwischen diesen Variablen und der abhängigen Variablen besteht. Sie können Ihr Modell verbessern, indem Sie Ihre Daten "bereinigen". Wenn dies jedoch nicht die reale Welt widerspiegelt, waren Sie erfolglos. Möglicherweise bedeutet die Verteilung Ihrer Daten, dass Ihr Modellierungsansatz falsch ist und Sie einen anderen Ansatz benötigen. Möglicherweise haben Ihre Daten Probleme.

Warum Sie Variablen entfernen, wenn sie corr> .3 haben, ist mir ein Rätsel. Vielleicht hängen diese Dinge wirklich zusammen und beide sind wichtig für die abhängige Variable. Sie können dies mit einem Index oder einer Funktion behandeln, die den gemeinsamen Beitrag korrelierter Variablen darstellt. Es scheint, dass Sie blind Informationen basierend auf beliebigen statistischen Kriterien ausgeben. Warum nicht corr> .31 oder .33 verwenden?

John
quelle