XGBoost kann fehlende Daten in der Prognosephase verarbeiten

11

Kürzlich habe ich den XGBoost-Algorithmus überprüft und festgestellt, dass dieser Algorithmus fehlende Daten (ohne Imputation) in der Trainingsphase verarbeiten kann. Ich habe mich gefragt, ob XGboost fehlende Daten verarbeiten kann (ohne dass eine Imputation erforderlich ist), wenn sie zur Vorhersage neuer Beobachtungen verwendet werden oder die fehlenden Daten unterstellt werden müssen.

Danke im Voraus.

Ricardo UES
quelle

Antworten:

14

xgboost entscheidet zur Trainingszeit, ob fehlende Werte in den rechten oder linken Knoten gelangen. Es wird ausgewählt, welche Verluste minimiert werden sollen. Wenn zum Trainingszeitpunkt keine Werte fehlen, werden standardmäßig neue Fehler an den richtigen Knoten gesendet.

Wenn die Verteilung Ihrer Fehlschläge ein Signal enthält, passt dies im Wesentlichen zum Modell.

Seien Sie vorsichtig, wenn die fehlenden Werte Ihrer Bewertungsdaten anders verteilt sind als Ihre Trainingsdaten. Die fehlende Handhabung von xgboost ist praktisch, schützt jedoch nicht vor Maskierung.

Quelle: diese Antwort

Dex Groves
quelle