Vorhersage von Zähldaten mit zufälliger Gesamtstruktur

12

Kann ein Random Forest trainiert werden, um die Zähldaten angemessen vorherzusagen? Wie würde das gehen? Ich habe einen ziemlich großen Wertebereich, daher ist eine Klassifizierung nicht wirklich sinnvoll. Wenn ich die Regression verwenden würde, würde ich die Ergebnisse einfach abschneiden? Ich bin hier ziemlich verloren. Irgendwelche Ideen?

JEquihua
quelle
1
Können Sie keine Poisson-Regression anwenden?
RJ
Ich wollte etwas nicht parametrisches verwenden. Erinnern Sie sich nicht wirklich an die Annahmen von Poisson-Regressionen, aber ich bin mir ziemlich sicher, dass eine davon ist, dass die Beobachtungen unabhängig sind und dass dies hier zutiefst nicht erfüllt ist. Könnte mich das sehr beeinflussen?
JEquihua
2
Haben Sie einfach versucht, eine RF-Regression durchzuführen (möglicherweise auch im Protokoll)? Es kann gerade gut genug funktionieren.
1
Nicht haben. Aber das war mein erster Anstoß. Protokoll- oder Quadratwurzeltransformation. Aber ich wollte sehen, ob jemand Erfahrung damit hat.
JEquihua
Ich habe nur versucht, die Antwort, das Protokoll (Antwort) und sqrt (Antwort) zu regressieren, und habe nichts Gutes erhalten. Ich denke, das Problem ist mehr, dass meine unabhängigen Variablen die Antwort erklären. Naja.
JEquihua

Antworten:

8

Es gibt ein R-Paket mit dem Namen, mobForestdas für die Zähldaten in eine echte Zufallsgesamtstruktur passen kann. Es basiert auf der mod()(modellbasierten rekursiven Partitionierung) im partyPaket. Es führt eine Poisson-Regression durch, wenn das familyArgument als angegeben ist poisson(). Das Paket befindet sich nicht mehr im CRAN-Repository, früher verfügbare Versionen können jedoch aus dem Archiv bezogen werden.

Wenn Sie nicht auf zufällige Gesamtstruktur- / Absackvorgänge beschränkt sind, steht auch eine Boost-Version für die Zähldaten zur Verfügung. Das heißt gbm(verallgemeinerte verstärkte Regressionsmodelle). Es kann auch ein Poisson-Modell passen.

Randel
quelle
4

Ich sehe ein paar Möglichkeiten.

  • Sie können die Antwort in einige beliebige Kategorien einteilen und einen Klassifizierungsbaum verwenden
  • Wenn die Anzahl normalerweise sehr niedrig ist (0, 0, 0, 1, 0, 3, 0, 2), können Sie jede Ganzzahl als Klasse behandeln und erneut einen Klassifizierungsbaum verwenden (wahrscheinlich nicht in Ihrem Fall). In diesen Fällen wird es schwieriger sein, eine erklärte Typmetrik mit hoher Varianz zu erhalten, als eine kontinuierliche Regression.
  • Wenn die Anzahl normalerweise nicht niedrig ist und es viele Variationen gibt, würde ich einfach einen Regressionsbaum verwenden. Beispielsweise ist die Verwendung der Poisson-Regression gegenüber der linearen Regression nur dann von Bedeutung, wenn es darum geht, einen guten linearen Prädiktor zu erhalten. Wenn Sie mit der zufälligen Gesamtstruktur keine gute Vorhersagekraft sehen, kann ich bezweifeln, dass ein schickeres Modell, das speziell Zähldaten berücksichtigt, viel für Sie tun wird.
Ben Ogorek
quelle