Ist in einer zufälligen Gesamtstruktur% IncMSE größer besser oder schlechter?

17

Nachdem ich in R ein (Regressions-) Zufallsgesamtstrukturmodell erstellt habe, rf$importancewerden mir durch den Aufruf zwei Kennzahlen für jede Prädiktorvariable %IncMSEund angezeigt IncNodePurity. Ist die Interpretation, dass Prädiktorvariablen mit kleineren %IncMSEWerten vorliegen, wichtiger als Prädiktorvariablen mit größeren %IncMSEWerten?

Wie wäre es mit für IncNodePurity?

derNincompoop
quelle

Antworten:

29

% IncMSE ist die robusteste und informativste Maßnahme. Dies ist die Zunahme der Anzahl der Vorhersagen (geschätzt mit "out-of-bag-CV") als Ergebnis der Permutation der Variablen j (zufällig gemischte Werte).

  1. wachsen Regressionswald. Berechne OOB-mse, benenne dieses mse0.
  2. für 1 bis j var: Werte der Spalte j permutieren, dann OOB-mse vorhersagen und berechnen (j)
  3. % IncMSE von j'th ist (mse (j) -mse0) / mse0 * 100%

Je höher die Zahl, desto wichtiger

IncNodePurity bezieht sich auf die Verlustfunktion, die durch beste Aufteilung ausgewählt wird. Die Verlustfunktion ist mse für die Regression und gini-Verunreinigung für die Klassifikation. Nützlichere Variablen erzielen höhere Zunahmen der Knotenreinheiten, d. H., Es wird eine Aufteilung gefunden, die eine hohe "Varianz" zwischen Knoten und eine kleine "Varianz" innerhalb des Knotens aufweist. IncNodePurity ist verzerrt und sollte nur verwendet werden, wenn die zusätzliche Rechenzeit für die Berechnung von% IncMSE nicht akzeptabel ist. Da die Berechnung von% IncMSE nur ca. 5-25% mehr Zeit in Anspruch nimmt, würde dies so gut wie nie passieren.

Eine ähnliche Frage und Antwort

Soren Havelund Welling
quelle