Es gibt zwei verschiedene Möglichkeiten, kategoriale Variablen zu codieren. Angenommen, eine kategoriale Variable hat n Werte. One-Hot-Codierung konvertiert es in n Variablen, während Dummy-Codierung es in n-1 Variablen konvertiert . Wenn wir k kategoriale Variablen haben, von denen jede n Werte hat. Eine heiße Codierung endet mit kn- Variablen, während die Dummy-Codierung mit kn-k- Variablen endet .
Ich höre, dass bei One-Hot-Codierung das Abfangen zu Kollinearitätsproblemen führen kann, wodurch das Modell nicht klingt. Jemand nennt es " Dummy-Variablenfalle ".
Meine Fragen:
Mit dem linearen Regressionsmodell von Scikit-learn können Benutzer das Abfangen deaktivieren. Soll ich für One-Hot-Codierung immer fit_intercept = False setzen? Für die Dummy-Codierung sollte fit_intercept immer auf True gesetzt werden. Ich sehe keine "Warnung" auf der Website.
Hat One-Hot-Codierung mehr Freiheitsgrade als Dummy-Codierung, da sie mehr Variablen generiert?