Ich habe einen Datensatz mit 24 Zeilen monatlicher Daten. Die Merkmale sind BIP, Flughafenankünfte, Monat und einige andere. Die abhängige Variable ist die Anzahl der Besucher eines beliebten Tourismusziels. Wäre Random Forest für ein solches Problem geeignet?
Die Daten sind nicht öffentlich, daher kann ich kein Beispiel veröffentlichen.
random-forest
small-sample
Hughesdan
quelle
quelle
Antworten:
Zufällige Gesamtstruktur besteht im Wesentlichen aus Bootstrap-Resampling und Trainingsentscheidungsbäumen für die Stichproben. Die Antwort auf Ihre Frage muss sich also mit diesen beiden Fragen befassen.
Bootstrap-Resampling ist kein Heilmittel für kleine Proben . Wenn Sie nur vierundzwanzig Beobachtungen in Ihrem Datensatz haben, würde jede der Proben, die durch Ersetzen aus diesen Daten entnommen wurden, aus nicht mehr als vierundzwanzig verschiedenen Werten bestehen. Das Mischen der Fälle und das Nichtzeichnen einiger Fälle würde nicht viel an Ihrer Fähigkeit ändern, etwas Neues über die zugrunde liegende Verteilung zu lernen. Ein kleines Beispiel ist also ein Problem für Bootstrap.
Entscheidungsbäume werden trainiert, indem die Daten bedingt von den Prädiktorvariablen einzeln aufgeteilt werden, um solche Unterproben zu finden, die die größte Unterscheidungskraft haben. Wenn Sie nur vierundzwanzig Fälle haben, sagen Sie, wenn Sie Glück hatten und alle Teilungen gleich groß waren, würden Sie mit zwei Teilungen vier Gruppen von sechs Fällen, mit Baumsplits, mit acht Dreiergruppen erhalten. Wenn Sie bedingte Mittelwerte für die Stichproben berechnen würden (um kontinuierliche Werte in Regressionsbäumen oder bedingte Wahrscheinlichkeiten in Entscheidungsbäumen vorherzusagen), würden Sie Ihre Schlussfolgerung nur auf diese wenigen Fälle stützen! Die Teilstichproben, mit denen Sie die Entscheidungen treffen würden, wären also noch kleiner als Ihre Originaldaten.
Bei kleinen Proben ist es normalerweise ratsam, einfache Methoden anzuwenden . Darüber hinaus können Sie die kleine Stichprobe mithilfe informativer Prioritäten in der Bayes'schen Umgebung nachholen (wenn Sie vernünftige Kenntnisse über das Problem außerhalb der Daten haben), sodass Sie die Verwendung eines maßgeschneiderten Bayes'schen Modells in Betracht ziehen können.
quelle
Einerseits ist dies ein kleiner Datensatz, und zufällige Gesamtstrukturen sind datenhungrig.
Andererseits ist vielleicht etwas besser als nichts. Es gibt nichts mehr zu sagen als "Probieren Sie es aus und sehen Sie." Sie können entscheiden, ob ein bestimmtes Modell "gut" ist oder nicht. Darüber hinaus können wir Ihnen nicht sagen, ob ein Modell für einen bestimmten Zweck geeignet ist (und Sie möchten auch nicht, dass wir dies tun - es entstehen uns keine Kosten, wenn wir falsch liegen!).
quelle