Ist Random Forest für sehr kleine Datenmengen geeignet?

Ich habe einen Datensatz mit 24 Zeilen monatlicher Daten. Die Merkmale sind BIP, Flughafenankünfte, Monat und einige andere. Die abhängige Variable ist die Anzahl der Besucher eines beliebten Tourismusziels. Wäre Random Forest für ein solches Problem geeignet?

Die Daten sind nicht öffentlich, daher kann ich kein Beispiel veröffentlichen.

random-forest small-sample Hughesdan
quelle

Normalerweise besteht die einzige Einschränkung für zufällige Gesamtstrukturen darin, dass Ihre Anzahl von Features ziemlich groß sein sollte. Der erste Schritt von RF besteht darin, 1 / 3n- oder sqrt (n) -Features auszuwählen, um einen Baum zu erstellen (abhängig von Aufgabe, Regression / Klassifizierung). Wenn Sie also über eine Vielzahl von Funktionen verfügen, verwenden Sie RF auch für kleine Datenmengen. Es gibt keinen Algorithmus, der für kleine Datenmengen wirklich gut funktioniert, sodass Sie nichts verlieren.

Deutscher Demidov

Du bist im niedrigen Bereich. RF wird funktionieren, aber wahrscheinlich nicht viel komplexere Dinge lernen, als man es sich vorstellen kann, wenn man die Rohdaten betrachtet. Es hilft, wenn Ihre Daten sehr rauscharm sind. Ab 40-50 Proben wird es besser. 500 gut. 5000 großartig.

Soren Havelund Welling

Für die Regression ist die mögliche Baumtiefe durch minnode = 5 begrenzt, sodass Ihre Stichproben im Durchschnitt nicht mehr als zweimal aufgeteilt werden. [[24 -> (1) 12 -> (2) 6.]] Einschließlich der mtry-Begrenzung wird die Das Modell würde es schwer haben, einen Interaktionseffekt oder sogar einen einfachen nichtlinearen Effekt zu erfassen. Sie könnten mit Minnode und Mtry herumspielen, aber das sollten Sie nur tun, wenn Ihre Daten praktisch rauscharmer sind. Potenzial über angepassten Schlussfolgerungen wäre die Kehrseite. Die erhaltene Modellstruktur würde wie eine grob geglättete Schrittfunktion aussehen.

Soren Havelund Welling

stackoverflow.com/questions/24752941/…

404pio

Verwenden Sie für kleine Datenmengen die Kreuzvalidierungstechnik. Weitere Informationen finden Sie unter stats.stackexchange.com/questions/19048/…

Asif Khan,

Antworten:

Zufällige Gesamtstruktur besteht im Wesentlichen aus Bootstrap-Resampling und Trainingsentscheidungsbäumen für die Stichproben. Die Antwort auf Ihre Frage muss sich also mit diesen beiden Fragen befassen.

Bootstrap-Resampling ist kein Heilmittel für kleine Proben . Wenn Sie nur vierundzwanzig Beobachtungen in Ihrem Datensatz haben, würde jede der Proben, die durch Ersetzen aus diesen Daten entnommen wurden, aus nicht mehr als vierundzwanzig verschiedenen Werten bestehen. Das Mischen der Fälle und das Nichtzeichnen einiger Fälle würde nicht viel an Ihrer Fähigkeit ändern, etwas Neues über die zugrunde liegende Verteilung zu lernen. Ein kleines Beispiel ist also ein Problem für Bootstrap.

Entscheidungsbäume werden trainiert, indem die Daten bedingt von den Prädiktorvariablen einzeln aufgeteilt werden, um solche Unterproben zu finden, die die größte Unterscheidungskraft haben. Wenn Sie nur vierundzwanzig Fälle haben, sagen Sie, wenn Sie Glück hatten und alle Teilungen gleich groß waren, würden Sie mit zwei Teilungen vier Gruppen von sechs Fällen, mit Baumsplits, mit acht Dreiergruppen erhalten. Wenn Sie bedingte Mittelwerte für die Stichproben berechnen würden (um kontinuierliche Werte in Regressionsbäumen oder bedingte Wahrscheinlichkeiten in Entscheidungsbäumen vorherzusagen), würden Sie Ihre Schlussfolgerung nur auf diese wenigen Fälle stützen! Die Teilstichproben, mit denen Sie die Entscheidungen treffen würden, wären also noch kleiner als Ihre Originaldaten.

Bei kleinen Proben ist es normalerweise ratsam, einfache Methoden anzuwenden . Darüber hinaus können Sie die kleine Stichprobe mithilfe informativer Prioritäten in der Bayes'schen Umgebung nachholen (wenn Sie vernünftige Kenntnisse über das Problem außerhalb der Daten haben), sodass Sie die Verwendung eines maßgeschneiderten Bayes'schen Modells in Betracht ziehen können.

Tim
quelle

Einerseits ist dies ein kleiner Datensatz, und zufällige Gesamtstrukturen sind datenhungrig.

Andererseits ist vielleicht etwas besser als nichts. Es gibt nichts mehr zu sagen als "Probieren Sie es aus und sehen Sie." Sie können entscheiden, ob ein bestimmtes Modell "gut" ist oder nicht. Darüber hinaus können wir Ihnen nicht sagen, ob ein Modell für einen bestimmten Zweck geeignet ist (und Sie möchten auch nicht, dass wir dies tun - es entstehen uns keine Kosten, wenn wir falsch liegen!).

Sycorax sagt Reinstate Monica
quelle