% IncMSE ist die robusteste und informativste Maßnahme. Dies ist die Zunahme der Anzahl der Vorhersagen (geschätzt mit "out-of-bag-CV") als Ergebnis der Permutation der Variablen j (zufällig gemischte Werte).
- wachsen Regressionswald. Berechne OOB-mse, benenne dieses mse0.
- für 1 bis j var: Werte der Spalte j permutieren, dann OOB-mse vorhersagen und berechnen (j)
- % IncMSE von j'th ist (mse (j) -mse0) / mse0 * 100%
Je höher die Zahl, desto wichtiger
IncNodePurity bezieht sich auf die Verlustfunktion, die durch beste Aufteilung ausgewählt wird. Die Verlustfunktion ist mse für die Regression und gini-Verunreinigung für die Klassifikation. Nützlichere Variablen erzielen höhere Zunahmen der Knotenreinheiten, d. H., Es wird eine Aufteilung gefunden, die eine hohe "Varianz" zwischen Knoten und eine kleine "Varianz" innerhalb des Knotens aufweist. IncNodePurity ist verzerrt und sollte nur verwendet werden, wenn die zusätzliche Rechenzeit für die Berechnung von% IncMSE nicht akzeptabel ist. Da die Berechnung von% IncMSE nur ca. 5-25% mehr Zeit in Anspruch nimmt, würde dies so gut wie nie passieren.
Eine ähnliche Frage und Antwort
Soren Havelund Welling
quelle