Ich erhalte den Fehler "Neue Faktoren, die in den Trainingsdaten nicht vorhanden sind". Aber ich habe die Ebenen und Klassen für jede Spalte in der Entwicklung sowie die Testdaten überprüft und sie sind gleich. Eine plausible Erklärung?
7
Antworten:
RF behandelt Faktoren durch One-Hot-Codierung. Es wird eine neue Dummy-Spalte für jede Ebene der Faktorvariablen erstellt. Wenn ein Scoring-Datenrahmen neue oder andere Faktorstufen enthält, passieren schlimme Dinge.
Wenn der Zug und der Test zum Zeitpunkt der Definition des Faktors zusammen in derselben Datenstruktur vorhanden waren, liegt kein Problem vor. Wenn der Faktor des Tests separat definiert ist, treten Probleme auf.
Sie können dieses Problem umgehen, indem Sie Ihre Bewertungsfaktoren so angeben, dass sie mit den Trainingsdaten übereinstimmen.
quelle