Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?
13
Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?
Antworten:
Sie verwenden wahrscheinlich "eine Codierung weglassen", um auf Owen Zhangs Strategie hinzuweisen.
Von: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories
Die codierte Spalte ist keine herkömmliche Dummy-Variable, sondern die mittlere Antwort für alle Zeilen dieser kategorialen Ebene, mit Ausnahme der Zeile selbst. Dies gibt Ihnen den Vorteil, dass Sie eine einspaltige Darstellung der Kategorie haben und direkte Antwortlecks vermeiden
Dieses Bild drückt die Idee gut aus.
quelle