Ich habe große Umfragedaten, eine binäre Ergebnisvariable und viele erklärende Variablen, einschließlich binärer und kontinuierlicher. Ich baue Modellsätze (experimentiere sowohl mit GLM als auch mit gemischtem GLM) und verwende informationstheoretische Ansätze, um das Topmodell auszuwählen. Ich habe die Erklärungen (sowohl kontinuierlich als auch kategorisch) sorgfältig auf Korrelationen untersucht und verwende nur diejenigen im selben Modell, deren Pearson- oder Phicorr-Koeffizient kleiner als 0,3 ist. Ich möchte allen meinen kontinuierlichen Variablen eine faire Chance geben, um das Topmodell zu konkurrieren. Nach meiner Erfahrung verbessert die Transformation derjenigen, die es benötigen, basierend auf dem Versatz das Modell, an dem sie teilnehmen (niedrigerer AIC).
Meine erste Frage lautet: Ist dies eine Verbesserung, weil die Transformation die Linearität mit dem Logit verbessert? Oder verbessert die Korrektur des Versatzes das Gleichgewicht der erklärenden Variablen irgendwie, indem die Daten symmetrischer gemacht werden? Ich wünschte, ich hätte die mathematischen Gründe dafür verstanden, aber im Moment wäre es großartig, wenn jemand dies in einfachen Worten erklären könnte. Wenn Sie Referenzen haben, die ich verwenden könnte, würde ich es wirklich schätzen.
Viele Internetseiten sagen, dass Sie die Variablen nicht transformieren sollten, da Normalität keine Annahme bei der binären logistischen Regression ist. Ich habe jedoch das Gefühl, dass ich einige Variablen im Vergleich zu anderen benachteilige, wenn ich meine Variablen nicht transformiere. Dies kann sich auf das Topmodell auswirken und die Inferenz ändern (normalerweise nicht, in einigen Datensätzen jedoch). Einige meiner Variablen weisen eine bessere Leistung auf, wenn das Protokoll transformiert wird, andere im Quadrat (unterschiedliche Richtung des Versatzes) und andere nicht transformiert.
Könnte mir jemand eine Richtlinie geben, worauf ich bei der Transformation erklärender Variablen für die logistische Regression achten sollte, und wenn nicht, warum nicht?
Antworten:
Sie sollten vorsichtig sein, ob Sie die Variablen nur aus statistischen Gründen transformieren oder nicht . Sie müssen auf Interpretation achten. ¿Ist es vernünftig, dass Ihre Antworten in linear sind ? oder ist es in wahrscheinlicher linear ? Und um das zu diskutieren, müssen wir Ihre Variablen kennen ... Nur als Beispiel: Unabhängig von der Modellanpassung würde ich nicht glauben, dass die Sterblichkeit eine lineare Funktion des Alters ist!log ( x )x log(x)
Da Sie sagen, Sie haben "große Datenmengen", könnten Sie in Splines schauen, um die Daten über Transformationen sprechen zu lassen ... zum Beispiel das Paket mgcv in R. Aber selbst wenn Sie eine solche Technologie (oder eine andere Methode zur automatischen Suche nach Transformationen) verwenden, können Sie die Der ultimative Test besteht darin, sich zu fragen, was wissenschaftlich sinnvoll ist . ¿Was machen andere Personen in Ihrem Bereich mit ähnlichen Daten?
quelle
Das entscheidende Problem ist, welche Zahlen in der realen Welt dargestellt werden sollen und welche hypothetische Beziehung zwischen diesen Variablen und der abhängigen Variablen besteht. Sie können Ihr Modell verbessern, indem Sie Ihre Daten "bereinigen". Wenn dies jedoch nicht die reale Welt widerspiegelt, waren Sie erfolglos. Möglicherweise bedeutet die Verteilung Ihrer Daten, dass Ihr Modellierungsansatz falsch ist und Sie einen anderen Ansatz benötigen. Möglicherweise haben Ihre Daten Probleme.
Warum Sie Variablen entfernen, wenn sie corr> .3 haben, ist mir ein Rätsel. Vielleicht hängen diese Dinge wirklich zusammen und beide sind wichtig für die abhängige Variable. Sie können dies mit einem Index oder einer Funktion behandeln, die den gemeinsamen Beitrag korrelierter Variablen darstellt. Es scheint, dass Sie blind Informationen basierend auf beliebigen statistischen Kriterien ausgeben. Warum nicht corr> .31 oder .33 verwenden?
quelle