Was ist der Unterschied zwischen einer heißen Codierung und einer ausgelassenen Codierung?

13

Ich lese eine Präsentation und empfehle, keine Kodierung wegzulassen, aber mit einer heißen Kodierung ist es in Ordnung. Ich dachte, sie wären beide gleich. Kann jemand beschreiben, was die Unterschiede zwischen ihnen sind?

icm
quelle
1
Es ist nicht klar (nur aus Ihrer Frage), was das Auslassen überhaupt ist. Sie sollten dies bearbeiten, um einen Hinweis zu geben und kurz zu erläutern, wie Sie beide verstehen und warum Sie glauben, dass sie gleich sind.
Sean Owen

Antworten:

15

Sie verwenden wahrscheinlich "eine Codierung weglassen", um auf Owen Zhangs Strategie hinzuweisen.

Von: https://www.kaggle.com/c/caterpillar-tube-pricing/forums/t/15748/strategies-to-encode-categorical-variables-with-many-categories

Die codierte Spalte ist keine herkömmliche Dummy-Variable, sondern die mittlere Antwort für alle Zeilen dieser kategorialen Ebene, mit Ausnahme der Zeile selbst. Dies gibt Ihnen den Vorteil, dass Sie eine einspaltige Darstellung der Kategorie haben und direkte Antwortlecks vermeiden

Dieses Bild drückt die Idee gut aus. Bildbeschreibung hier eingeben

Dex Groves
quelle
Ihre Erklärung ist besser als die von wacax im angegebenen Link, danke
Allan Ruin
Hallo @Dex Groves, also ist die leave_one_out-Codierung für den Test immer 0,5?
user7117436
3
Hallo! Wie aus dem Bild ersichtlich, bezieht sich dieses besondere Beispiel auf das Klassifizierungsproblem. Hat jemand eine Erfahrung mit LOO-Codierung im Rahmen von Regressionsproblemen? Die Hauptfrage ist, wie die Zielvariable aggregiert wird. Ich mache jetzt Experimente und bekomme eine riesige Überanpassung mit mean (y).
Alexey Trofimov
1
Ist es bei einem (nicht überwachten) Clustering-Problem möglich, diese Art der Codierung zu verwenden?
enneppi
@AlexeyTrofimov - versuchen Sie eine Aggregation mit einer geringeren Varianz. Ich würde mit einer anderen Gruppierung beginnen (wie 1K, 2K, 2M, .. für große y int-Werte oder einer Rundung auf eine Dezimalstelle für y float-Werte) => mean (bin_f (y))
mork