Grenzen zu baumbasierten Ensemble-Methoden bei kleinen n, großen p-Problemen?

10

Baumbasierte Ensemble-Methoden wie Random Forest und nachfolgende Ableitungen (z. B. bedingter Wald) sollen bei sogenannten "kleinen n , großen p " -Problemen nützlich sein , um die relative variable Bedeutung zu identifizieren. Dies scheint zwar der Fall zu sein, aber meine Frage ist, wie weit diese Fähigkeit gehen kann. Kann man beispielsweise 30 Beobachtungen und 100 Variablen haben? Was ist der Bruchpunkt eines solchen Ansatzes und gibt es anständige Faustregeln? Ich würde es vorziehen und werde Antworten akzeptieren, die durch Links zu tatsächlichen Beweisen (keine Vermutungen) unter Verwendung von simulierten oder realen Datensätzen gestützt werden . Zu letzterem habe ich nicht viel gefunden ( hier und hier), daher sind Ihre Gedanken / Ratschläge / (themenbezogenen) Referenzvorschläge herzlich willkommen!

Prophet60091
quelle

Antworten:

3

Ich vermute, dass es keine endgültige Antwort auf diese Frage geben wird, bis einige Simulationsstudien durchgeführt wurden. In der Zwischenzeit fand ich Random Forests von Genuer et al .: Einige methodische Erkenntnisse halfen dabei, diese Frage aus einer Perspektive zu betrachten, zumindest im Hinblick auf das Testen von RF gegen eine Vielzahl von Datensätzen mit "niedrigem n, hohem p". Einige dieser Datensätze haben> 5000 Prädiktoren und <100 Beobachtungen !!

Prophet60091
quelle
3

Der Fehlermodus, auf den Sie stoßen, besteht darin, dass bei genügend zufälligen Merkmalen Merkmale vorhanden sind, die sich auf das Ziel in den für jeden Baum verwendeten verpackten Stichproben beziehen, jedoch nicht in dem größeren Datensatz. Ein ähnliches Problem wie bei mehreren Tests.

Faustregeln hierfür sind schwer zu entwickeln, da der genaue Punkt, an dem dies geschieht, von der Menge des Rauschens und der Stärke des Signals in den Daten abhängt. Es gibt auch Methoden, die dies beheben, indem sie mehrere testkorrigierte p-Werte als Aufteilungskriterien verwenden, einen Merkmalsauswahlschritt basierend auf variabler Wichtigkeit und / oder einen Vergleich der Merkmalsbedeutungen mit künstlichen Kontrastmerkmalen durchführen, die durch zufälliges Permutieren des tatsächlichen Merkmals erzeugt werden, wobei out verwendet wird von Taschenkoffern zur Validierung der Split-Auswahl und anderer Methoden. Diese können äußerst effektiv sein.

Ich habe zufällige Gesamtstrukturen (einschließlich einiger der oben genannten methodischen Verbesserungen) für Datensätze mit ~ 1000 Fällen und 30.000-1.000.000 Merkmalen verwendet. (Datensätze in der Humangenetik mit unterschiedlichem Grad an Merkmalsauswahl oder Engineering). Sie können sicherlich wirksam sein, um ein starkes Signal (oder einen Batch-Effekt) in solchen Daten wiederherzustellen, aber es ist nicht gut, so etwas wie eine Krankheit mit heterogenen Ursachen zusammenzusetzen, da die zufällige Variation des Betrags jedes Signal überwindet

Ryan Bressler
quelle
0

Dies hängt auch vom Signal und Rauschen Ihrer Daten ab. Wenn Ihre abhängige Variable durch eine Kombination der Variablen in Ihrem Modell ziemlich gut erklärt wird, können Sie meiner Meinung nach mit einem niedrigeren n / p-Verhältnis davonkommen.

Ich vermute, dass eine absolute Mindestanzahl von n erforderlich ist, um ein anständiges Modell zu erhalten, abgesehen vom Verhältnis.

Eine Möglichkeit, dies zu betrachten, besteht darin, dass jeder Baum mit ungefähr SQRT (p) -Variablen erstellt wird. Wenn diese Anzahl groß ist und die Anzahl der Punkte klein ist, können Bäume angepasst werden, ohne dass dort wirklich ein reales Modell vorhanden ist. Daher geben viele solcher überpassenden Bäume eine falsche variable Bedeutung.

Wenn ich in einem Diagramm mit variabler Wichtigkeit viele Top-Variablen mit fast gleichem Wichtigkeitsgrad sehe, schließe ich normalerweise, dass es mir nur Rauschen gibt.

DeepakML
quelle
Woher kommt der SQRT (p)?
LauriK
In RandomForest wird jeder Baum anhand einer Stichprobe der Variablen erstellt. Standardmäßig (mindestens im R randomForest-Paket) ist der Wert die nächste Zahl, die kleiner oder gleich SQRT (p) ist, wobei p die Anzahl der Spalten ist.
DeepakML