Die Bedeutung von Merkmalen über zufällige Gesamtstruktur und lineare Regression ist unterschiedlich

Hat Lasso angewendet, um die Features zu bewerten und die folgenden Ergebnisse zu erzielen:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

Beachten Sie, dass der Datensatz 3 Beschriftungen hat. Die Rangfolge der Features für die verschiedenen Labels ist gleich.

Wenden Sie dann eine zufällige Gesamtstruktur auf denselben Datensatz an:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

Beachten Sie, dass sich das Ranking stark von dem von Lasso unterscheidet.

Wie ist der Unterschied zu interpretieren? Bedeutet dies, dass das zugrunde liegende Modell von Natur aus nichtlinear ist?

feature-selection random-forest linear-regression Neurit
quelle

Der Rang eines Features wird nicht wirklich zwischen verschiedenen Klassifizierern übersetzt. Um zu testen, ob das Modell nichtlinear ist, siehe hier zum Beispiel: stats.stackexchange.com/questions/35893/…

Alex R.

Feature-Wichtigkeiten sind nur ein Vorschlag, der auf "Heuristiken" basiert. Sie können manchmal unzuverlässig sein. Normalerweise vertraue ich zufälligen Wäldern mehr als Lasso.

Gerenuk

Ihre Abfrage ist also ein Vergleich der linearen Regression mit der modellbasierten Bedeutung von Variablen durch zufällige Gesamtstrukturen.

$R^2$

Ein weiterer beliebter Ansatz ist die Mittelung über Bestellungen (LMG, 1980). Das LMG funktioniert folgendermaßen:

$SS_a/SS_{total}$ $R^2$ $a$
$a,b,c$ $b,a,c$ $b,c,a$
Finden Sie den Durchschnitt der semi-partiellen Korrelationen für jede dieser Ordnungen. Dies ist der Durchschnitt über Bestellungen.

Der Zufallsstrukturalgorithmus passt mehrere Bäume an. Jeder Baum in der Gesamtstruktur wird durch zufällige Auswahl verschiedener Features aus dem Datensatz erstellt. Die Knoten jedes Baums werden durch Auswahl und Aufteilung aufgebaut, um eine maximale Varianzreduzierung zu erreichen. Während der Vorhersage des Testdatensatzes wird die Ausgabe der einzelnen Bäume gemittelt, um die endgültige Ausgabe zu erhalten. Jede Variable wird zwischen allen Bäumen permutiert und die Differenz des Fehlers außerhalb der Stichprobe vor und nach der Permutation wird berechnet. Die Variablen mit dem höchsten Unterschied werden als am wichtigsten angesehen, und diejenigen mit niedrigeren Werten werden als weniger wichtig angesehen.

Die Methode, mit der das Modell an die Trainingsdaten angepasst wird, unterscheidet sich für ein lineares Regressionsmodell stark von einem zufälligen Waldmodell. Beide Modelle enthalten jedoch keine strukturellen Beziehungen zwischen den Variablen.

Zu Ihrer Abfrage zur Nichtlinearität der abhängigen Variablen: Das Lasso ist im Wesentlichen ein lineares Modell, das im Vergleich zu baumbasierten Modellen keine guten Vorhersagen für zugrunde liegende nichtlineare Prozesse liefern kann. Sie sollten dies überprüfen können, indem Sie die Leistung des Modells über einen Testsatz für die Stilllegung überprüfen. Wenn die zufällige Gesamtstruktur eine bessere Leistung erbringt, ist der zugrunde liegende Prozess möglicherweise nicht linear. Alternativ können Sie variable Interaktionseffekte und Variablen höherer Ordnung, die mit a, b und c erstellt wurden, in das Lasso-Modell aufnehmen und überprüfen, ob dieses Modell im Vergleich zu einem Lasso mit nur einer linearen Kombination von a, b und c eine bessere Leistung aufweist. Wenn dies der Fall ist, ist der zugrunde liegende Prozess möglicherweise nicht linear.

Verweise:

Sandeep S. Sandhu
quelle

Die Bedeutung von Merkmalen über zufällige Gesamtstruktur und lineare Regression ist unterschiedlich

Antworten: