Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?
Ich frage mich, ob es eine gute Idee ist, diese Variablen mit einem negativen Variablen-Wichtigkeitswert ("% IncMSE") in einem Regressionskontext zu entfernen. Und wenn es mir eine bessere Vorhersage gibt? Was denkst du?
Die variable Wichtigkeit in zufälligen Wäldern wird wie folgt berechnet:
Dann werden die Werte einer einzelnen Spalte permutiert und die MSE erneut berechnet. Wenn beispielsweise eine Spalte (Spalte 1) die Werte 1,2,3,4 annimmt und eine zufällige Permutation der Werte zu 4,3,1,2 führt. Dies führt zu einer MSE1. Dann würde eine Erhöhung der MSE, dh MSE1 - MSE, die Bedeutung der Variablen anzeigen.
Wir erwarten, dass der Unterschied positiv ist, aber im Fall einer negativen Zahl bedeutet dies, dass die zufällige Permutation besser funktioniert hat. Es kann gefolgert werden, dass die Variable keine Rolle bei der Vorhersage spielt, dh nicht wichtig ist.
Hoffe das hilft!
Eine ausführliche Erklärung finden Sie unter folgendem Link!
/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean
Dies kann nur eine zufällige Schwankung sein (zum Beispiel, wenn Sie einen kleinen Baum haben).
Wenn nicht, kann dies zeigen, dass Ihre Daten eine Reihe schwerwiegender Paradoxien aufweisen, dh Objektpaare mit nahezu identischen Prädiktoren und sehr unterschiedlichen Ergebnissen. In diesem Fall würde ich zweimal prüfen, ob das Modell tatsächlich Sinn macht, und darüber nachdenken, wie ich mehr Attribute erhalten könnte, um sie aufzulösen.