Mir ist bewusst, dass kategoriale Variablen mit k Ebenen mit k-1 Variablen in Dummy-Codierung codiert werden sollten (ähnlich für mehrwertige kategoriale Variablen). Ich habe mich gefragt, wie problematisch eine One-Hot-Codierung (dh die Verwendung von k Variablen) gegenüber einer Dummy-Codierung für verschiedene Regressionsmethoden ist, hauptsächlich lineare Regression, bestrafte lineare Regression (Lasso, Ridge, ElasticNet), baumbasierte (zufällige Wälder) , Gradientenverstärkungsmaschinen).
Ich weiß, dass bei der linearen Regression Multi-Kollinearitätsprobleme auftreten (obwohl ich in der Praxis die lineare Regression mit OHE ohne Probleme angepasst habe).
Muss jedoch in allen eine Dummy-Codierung verwendet werden, und wie falsch wären die Ergebnisse, wenn eine One-Hot-Codierung verwendet wird?
Mein Fokus liegt auf der Vorhersage in Regressionsmodellen mit mehreren kategorialen Variablen (mit hoher Kardinalität), daher bin ich nicht an Konfidenzintervallen interessiert.
Antworten:
Das Problem bei der Darstellung einer kategorialen Variablen mit Ebenen mit Variablen in der Regression besteht darin, dass, wenn das Modell auch einen konstanten Term hat, die Terme linear abhängig sind und das Modell daher nicht identifizierbar ist. Wenn das Modell beispielsweise und , ist jede Wahl des Parametervektors nicht von . Obwohl Software möglicherweise bereit ist, Ihnen Schätzungen für diese Parameter zu geben, sind sie nicht eindeutig bestimmt und daher wahrscheinlich nicht sehr nützlich.k μ = a 0 + a 1 × 1 + a 2 × 2 × 2 = 1 - X 1 ( β 0 , β 1 , β 2 ) ( β 0 + β 2 ,k k μ = a0+ a1X.1+ a2X.2 X.2= 1 - X.1 ( β0, β1, β2) ( β0+ β2,β1- β2,0 )
Durch die Bestrafung wird das Modell identifizierbar, aber die redundante Codierung wirkt sich angesichts der obigen Angaben immer noch auf seltsame Weise auf die Parameterwerte aus.
Die Auswirkung einer redundanten Codierung auf einen Entscheidungsbaum (oder ein Ensemble von Bäumen) besteht wahrscheinlich darin, dass das betreffende Merkmal im Vergleich zu anderen übergewichtet wird, da es mit einer zusätzlichen redundanten Variablen dargestellt wird und daher häufiger ausgewählt wird, als dies sonst der Fall wäre spaltet sich.
quelle
Der Kodiologe hatte eine großartige Antwort (+1). One-Hot-Codierung im Vergleich zu Dummy-Codierung Die Codierungsmethoden sind in Bezug auf die Entwurfsmatrix gleich und befinden sich im selben Raum mit unterschiedlicher Basis. (obwohl die One-Hot-Codierung mehr Spalten enthält)
Daher, wenn Sie sich auf Genauigkeit anstatt auf Interpretierbarkeit konzentrieren. Zwei Codierungsmethoden machen keinen Unterschied.
quelle
Ich fühle mich die beste Antwort auf diese Frage in den Kommentaren von @MatthewDrury begraben liegt, in dem es heißt , dass es ist ein Unterschied , und dass Sie die scheinbar redundante Spalte in jedem regularisierten Ansatz verwenden sollten. @ MatthewDrury argumentiert
Ich denke, er hat Recht.
quelle
k
Ebenen oder mitk-1
Ebenen verwenden. Gibt es zusätzlich zu Ihrer Aussage (reguliert / nicht reguliert) Richtlinien, was in allen Fällen zu tun ist?