RandomForest negative Werte mit variabler Wichtigkeit

10

Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?

Giuseppe
quelle

Antworten:

5

Die variable Wichtigkeit in zufälligen Wäldern wird wie folgt berechnet:

  1. Zunächst wird die MSE des Modells mit den ursprünglichen Variablen berechnet
  2. Dann werden die Werte einer einzelnen Spalte permutiert und die MSE erneut berechnet. Wenn beispielsweise eine Spalte (Spalte 1) die Werte 1,2,3,4 annimmt und eine zufällige Permutation der Werte zu 4,3,1,2 führt. Dies führt zu einer MSE1. Dann würde eine Erhöhung der MSE, dh MSE1 - MSE, die Bedeutung der Variablen anzeigen.

  3. Wir erwarten, dass der Unterschied positiv ist, aber im Fall einer negativen Zahl bedeutet dies, dass die zufällige Permutation besser funktioniert hat. Es kann gefolgert werden, dass die Variable keine Rolle bei der Vorhersage spielt, dh nicht wichtig ist.

Hoffe das hilft!

Eine ausführliche Erklärung finden Sie unter folgendem Link!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
quelle
3

Dies kann nur eine zufällige Schwankung sein (zum Beispiel, wenn Sie einen kleinen Baum haben).

Wenn nicht, kann dies zeigen, dass Ihre Daten eine Reihe schwerwiegender Paradoxien aufweisen, dh Objektpaare mit nahezu identischen Prädiktoren und sehr unterschiedlichen Ergebnissen. In diesem Fall würde ich zweimal prüfen, ob das Modell tatsächlich Sinn macht, und darüber nachdenken, wie ich mehr Attribute erhalten könnte, um sie aufzulösen.


quelle
2
Könnten Sie die "Paradoxe in Daten" etwas näher erläutern? Ich bin nicht ganz gefolgt und würde gerne verstehen, was Sie erklären.
JEquihua