Ich verwende das randomForest-Paket in R, um ein zufälliges Waldmodell zu entwickeln und zu versuchen, ein kontinuierliches Ergebnis in einem "breiten" Datensatz mit mehr Prädiktoren als Stichproben zu erklären.
Insbesondere passe ich ein RF-Modell an, mit dem das Verfahren aus einem Satz von ~ 75 Prädiktorvariablen auswählen kann, die ich für wichtig halte.
Ich teste, wie gut dieses Modell das tatsächliche Ergebnis für einen reservierten Testsatz vorhersagt, indem ich den hier zuvor beschriebenen Ansatz verwende , nämlich
... oder in R:
1 - sum((y-predicted)^2)/sum((y-mean(y))^2)
Aber jetzt habe ich zusätzliche ~ 25 Prädiktorvariablen, die ich hinzufügen kann. Bei Verwendung des Satzes von ~ 100 Prädiktoren ist der R² höher. Ich möchte dies statistisch testen, mit anderen Worten, wenn der Satz von ~ 100 Prädiktoren verwendet wird, ist der Modelltest beim Testen von Daten signifikant besser als die Modellanpassung mit ~ 75 Prädiktoren. Das heißt, ist der R² aus dem Testen des RF-Modells, der auf den vollständigen Datensatz passt, signifikant höher als der R² aus dem Testen des RF-Modells auf den reduzierten Datensatz.
Dies ist für mich wichtig zu testen, da es sich um Pilotdaten handelt und es teuer war, diese zusätzlichen 25 Prädiktoren zu erhalten, und ich muss wissen, ob ich für die Messung dieser Prädiktoren in einer größeren Folgestudie zahlen muss.
Ich versuche, mir einen Resampling- / Permutationsansatz auszudenken, aber mir fällt nichts ein.
quelle
Die Nebenoption besteht darin, alle relevanten Feature-Auswahlen zu verwenden. Dies würde Ihnen sagen, welche Attribute eine Chance haben, für die Klassifizierung von erheblichem Nutzen zu sein. Daher sind diese teuren Attribute ihren Preis wert. Dies kann beispielsweise mit einem RF-Wrapper, Boruta, erfolgen .
quelle
Möglicherweise möchten Sie eher in praktischer als in statistischer Signifikanz (oder in beidem) denken. Mit genügend Daten können Sie statistisch wichtige Dinge finden, die keinen wirklichen Einfluss auf Ihre Nutzung haben. Ich erinnere mich, dass ich ein Modell einmal analysiert habe, bei dem die 5-Wege-Wechselwirkungen statistisch signifikant waren, aber als die Vorhersagen des Modells, die alles bis zu den 5-Wege-Wechselwirkungen umfassten, mit den Vorhersagen eines Modells verglichen wurden, das nur 2-Wege-Wechselwirkungen und Haupteffekte enthielt Der größte Unterschied war weniger als 1 Person (die Antwort war die Anzahl der Personen und alle interessanten Werte waren von 0 entfernt). Die zusätzliche Komplexität hat sich also nicht gelohnt. Schauen Sie sich also die Unterschiede in Ihren Vorhersagen an, um festzustellen, ob die Unterschiede ausreichen, um die zusätzlichen Kosten zu rechtfertigen. wenn nicht, warum dann überhaupt nach der statistischen Signifikanz suchen? Wenn die Unterschiede groß genug sind, um die Kosten zu rechtfertigen, wenn sie real sind, dann stimme ich den anderen Vorschlägen für die Verwendung der Kreuzvalidierung zu.
quelle
Die Methode kann auch erweitert werden, um innerhalb der Kreuzvalidierung zu arbeiten (nicht nur Stichprobenaufteilung wie oben gezeigt).
quelle
Da Sie bereits
randomForest
nach der Kreuzvalidierung verwenden, können Sie die Berechnung der Prädiktor-Wichtigkeitswerte durch die ausgewählte Anpassung ausgeben.quelle
Ich sehe, dass diese Frage vor langer Zeit gestellt wurde; Es gibt jedoch noch keine Antwort auf die erheblichen Mängel und Missverständnisse in der Frage.
Bitte beachten Sie:
Sie geben an, dass R ^ 2 = ESS / TSS = 1 - RSS / TSS. Dies gilt nur in einem linearen Kontext. Die Gleichheit TSS = RSS + ESS gilt nur bei linearer Regression mit Achsenabschnitt. Daher können Sie diese Definitionen für zufällige Gesamtstrukturen nicht austauschbar verwenden. Aus diesem Grund sind RMSE und ähnliche eher typische Verlustfunktionen.
Noch wichtiger für statistische Zwecke: R ^ 2 folgt einer unbekannten Verteilung (auch in der linearen Einstellung). Das heißt, das Testen einer Hypothese mit statistischer Signifikanz unter Verwendung von R ^ 2 ist nicht so einfach. Die von Zach erwähnte Kreuzvalidierung ist eine gute Wahl.
Was user88 Antwort: Kreuzvalidierung mit Wilcoxon - Test ist ein gültiger Ansatz. In einem kürzlich erschienenen Artikel werden der von Wilcoxon signierte Ränge-Test und der Friedman-Test zum Vergleich verschiedener Methoden und Algorithmen verwendet.
quelle