Meine Frage ist, ob wir den Datensatz standardisieren müssen, um sicherzustellen, dass alle Variablen den gleichen Maßstab zwischen [0,1] haben, bevor die logistische Regression angepasst wird. Die Formel lautet:
Mein Datensatz enthält 2 Variablen, sie beschreiben dasselbe für zwei Kanäle, aber die Lautstärke ist unterschiedlich. Angenommen, es ist die Anzahl der Kundenbesuche in zwei Geschäften. Hier ist angegeben, ob ein Kunde einkauft. Weil ein Kunde beide Geschäfte oder zweimal das erste Geschäft, einmal das zweite Geschäft, besuchen kann, bevor er einen Kauf tätigt. Die Gesamtzahl der Kundenbesuche für das erste Geschäft ist jedoch zehnmal höher als für das zweite Geschäft. Wenn ich diese logistische Regression ohne Standardisierung einsetze coef(store1)=37, coef(store2)=13
; wenn ich die Daten standardisiere, dann coef(store1)=133, coef(store2)=11
. Etwas wie das. Welcher Ansatz ist sinnvoller?
Was ist, wenn ich ein Entscheidungsbaummodell anpasse? Ich weiß, dass Baumstrukturmodelle keine Standardisierung benötigen, da das Modell sie irgendwie anpassen wird. Aber fragen Sie uns alle.
quelle
C
ändert. Sie müssen alsoC
nach der Standardisierung der Daten auswählen .Antworten:
Für die logistische Regression ist keine Standardisierung erforderlich. Das Hauptziel der Standardisierung von Features besteht darin, die Konvergenz der für die Optimierung verwendeten Technik zu unterstützen. Wenn Sie beispielsweise Newton-Raphson verwenden, um die Wahrscheinlichkeit zu maximieren, beschleunigt die Standardisierung der Features die Konvergenz. Andernfalls können Sie Ihre logistische Regression ausführen, ohne die Funktionen standardisieren zu müssen.
quelle
@Aymen ist richtig, Sie müssen Ihre Daten für die logistische Regression nicht normalisieren. (Für allgemeinere Informationen kann es hilfreich sein, diesen CV-Thread durchzulesen: Wann sollten Sie Ihre Daten zentrieren und wann sollten Sie standardisieren?; Sie können auch beachten, dass Ihre Transformation häufiger als "Normalisieren" bezeichnet wird; siehe: So überprüfen Sie a Verteilung ist normalisiert? ) Lassen Sie mich einige andere Punkte in der Frage ansprechen.
Beachten Sie hierbei, dass Ihre Koeffizienten in der logistischen Regression die Auswirkung einer Änderung Ihrer Prädiktorvariablen um eine Einheit auf die logarithmischen Erfolgsaussichten angeben. Durch die Transformation einer Variablen (z. B. durch Standardisieren oder Normalisieren) wird das geändert, was wir im Kontext unseres Modells als "Einheit" bezeichnen. Ihre rohen Daten variierten über eine bestimmte Anzahl von Einheiten in der ursprünglichen Metrik. Nachdem Sie sich normalisiert haben, lagen Ihre Daten im Bereich von bis . Das heißt, eine Änderung um eine Einheit bedeutet nun, dass von der niedrigstwertigen Beobachtung zur höchstwertigen Beobachtung übergegangen wird. Der Betrag der Erhöhung der Log-Erfolgschancen hat sich nicht geändert. dieser Tatsachen vermute ich, dass sich Ihre erste Variable ( ) überx 0 1 133/37≈3.6 Originaleinheiten, und Ihre zweite Variable ( 11/13≈0.85
store1
store2
) umfasst nur Originaleinheiten.quelle
Wenn Sie eine logistische Regression mit LASSO oder eine Kammregression (wie in der Weka Logistic- Klasse) verwenden, sollten Sie dies tun. Als Hastie, Tibshirani und Friedman Punkte aus (Seite 82 des pdf oder auf Seite 63 des Buches):
Auch dieser Thread tut.
quelle