Ich habe gelernt, dass wir uns beim Erstellen eines Regressionsmodells um kategoriale Variablen kümmern müssen, indem wir sie in Dummy-Variablen konvertieren. Wenn es in unserem Datensatz beispielsweise eine Variable wie location gibt:
Location
----------
Californian
NY
Florida
Wir müssen sie konvertieren wie:
1 0 0
0 1 0
0 0 1
Es wurde jedoch vorgeschlagen, eine Dummy-Variable zu verwerfen, unabhängig davon, wie viele Dummy-Variablen vorhanden sind.
Warum müssen wir eine Dummy-Variable verwerfen?
machine-learning
regression
categorical-data
Mithun Sarker Shuvro
quelle
quelle
Antworten:
Einfach ausgedrückt, weil eine Ebene Ihres kategorialen Features (hier Speicherort) während der Dummy-Codierung für die Regression zur Referenzgruppe wird und redundant ist. Ich zitiere hier die Form "Eine kategoriale Variable von K Kategorien oder Ebenen tritt normalerweise als Folge von K-1-Dummy-Variablen in eine Regression ein. Dies entspricht einer linearen Hypothese über das Ebenenmittel."
Dies wird bereits in dieser sehr schönen Antwort von stats.stackexchange besprochen .
Mir wurde gesagt, dass es in Coursera einen Fortgeschrittenenkurs von Yandex gibt, der dieses Thema ausführlicher behandelt, wenn Sie noch Zweifel haben, siehe hier . Beachten Sie, dass Sie den Kursinhalt jederzeit kostenlos prüfen können. ;-);
Ein weiterer netter Beitrag, wenn Sie eine gründliche Erklärung mit vielen Beispielen mit statistischer Perspektive wünschen und nicht nur auf Dummy-Codierung beschränkt sind, lesen Sie dies von UCLA (in R).
Beachten Sie
pandas.get_dummies
, dass bei Verwendung ein Parameter vorhanden ist, dhdrop_first
, ob durch Entfernen der ersten Ebene k-1-Dummies aus k kategorialen Ebenen entfernt werden sollen. Bitte beachten Siedefault = False
, dass die Referenz nicht gelöscht wird und k Dummies aus k kategorialen Ebenen erstellt werden!quelle
Abhängig von Ihrem Anwendungsfall müssen Sie kein Level löschen.
Siehe
In welchen Fällen sollten wir die erste Ebene der kategorialen Variablen nicht löschen?
und die viel allgemeinere Frage
Warum ist es beim überwachten Lernen schlecht, korrelierte Merkmale zu haben?
quelle