Zeigen zufällige Wälder eine Vorhersageverzerrung?

12

Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte (basierend auf dem Wettbewerbsdatensatz der Kaggle Photo Quality Prediction , den Gewinnergebnissen und einigen von ihnen die nachfolgenden Informationen darüber, welche Techniken verwendet wurden).

Das erste, was ich unter solchen Umständen mache, ist ein Plot-Vorhersagefehler für mein Modell. Daher bestimme ich für jeden gegebenen Vorhersagewert die mittlere Abweichung (oder Abweichung) vom richtigen Zielwert. Für meine RF habe ich diese Handlung bekommen:

Vorhersagewert gegen Abweichung vom korrekten Zielwert

Ich frage mich, ob dies ein häufig beobachtetes Bias-Muster für RF ist (wenn nicht, könnte es möglicherweise etwas Spezifisches für den Datensatz und / oder meine Implementierung sein). Ich kann dieses Diagramm natürlich verwenden, um Vorhersagen zu verbessern, indem ich es zum Ausgleich der Verzerrung verwende, aber ich frage mich, ob das RF-Modell selbst einen grundlegenderen Fehler oder Mangel aufweist, der behoben werden muss. Vielen Dank.

== ADDENDUM ==

Meine erste Untersuchung ist bei diesem Blogeintrag Random Forest Bias - Update

Redcalx
quelle
2
Dies könnte ein Merkmal Ihrer Daten sein. Haben Sie versucht, eine andere RF-Implementierung für denselben Datensatz auszuführen, um festzustellen, ob dieser Effekt reproduziert wird?

Antworten:

4

(Ich bin weit von Experten. Dies sind nur Träumereien von einem Junior-Statistiker , die mit unterschiedlichen behandelt hat, aber lose analog, Fragen. Meine Antwort von Kontext heraus könnte.)

Angesichts einer neuen Stichprobe, die vorhergesagt werden soll, und eines Orakels, das Zugang zu einem viel größeren Trainingssatz hat, lautet die "beste" und ehrlichste Vorhersage vielleicht "Ich sage mit einer Wahrscheinlichkeit von 60% voraus, dass dies eher in die rote Klasse gehört als." die blaue Klasse ".

Ich werde ein konkreteres Beispiel geben. Stellen Sie sich vor, dass es in unserem sehr großen Trainingsset eine große Anzahl von Stichproben gibt, die unserer neuen Stichprobe sehr ähnlich sind. Davon sind 60% blau und 40% rot. Und es scheint nichts zu geben, was den Blues vom Roten unterscheidet. In einem solchen Fall ist es offensichtlich, dass 60% / 40% die einzige Vorhersage ist, die eine gesunde Person treffen kann.

Natürlich haben wir kein solches Orakel, sondern viele Bäume. Einfache Entscheidungsbäume sind nicht in der Lage, diese 60% / 40% -Vorhersagen zu treffen, und daher macht jeder Baum eine diskrete Vorhersage (Rot oder Blau, nichts dazwischen). Da diese neue Stichprobe nur auf die rote Seite der Entscheidungsfläche fällt, werden Sie feststellen, dass fast alle Bäume eher Rot als Blau vorhersagen. Jeder Baum gibt vor, sicherer zu sein als er ist, und es beginnt ein Ansturm auf eine voreingenommene Vorhersage.

Das Problem ist, dass wir dazu neigen, die Entscheidung eines einzelnen Baums falsch zu interpretieren. Wenn ein einzelner Baum einen Knoten in die rote Klasse einfügt, sollten wir dies nicht als 100% / 0% -Vorhersage des Baums interpretieren. (Ich sage nicht nur, dass wir 'wissen', dass es wahrscheinlich eine schlechte Vorhersage ist. Ich sage etwas Stärkeres, dh wir sollten vorsichtig sein, dass wir es als Vorhersage des Baumes interpretieren.) Ich kann nicht genau erläutern, wie dies behoben werden kann. Es ist jedoch möglich, Ideen aus statistischen Bereichen auszuleihen, wie mehr „unscharfe“ Teilungen innerhalb eines Baums erstellt werden können, um einen einzelnen Baum zu ermutigen, ehrlicher mit seiner Unsicherheit umzugehen. Dann sollte es möglich sein, die Vorhersagen aus einem Wald von Bäumen sinnvoll zu mitteln.

Ich hoffe das hilft ein wenig. Wenn nicht, hoffe ich, aus den Antworten zu lernen.

Aaron McDaid
quelle
Fuzzy Splits, verstanden, im Geiste extremer HF (aber möglicherweise nicht so extrem?). Ich werde es versuchen, da Ihre Erklärung für mich Sinn macht. Vielen Dank.
Redcalx
[Random Forest - Gedanken zum Bias-Problem] ( the-locster.livejournal.com/134241.html ) "Der Schlüssel dann (glaube ich) ist die Verwendung einer ungleichmäßigen Randomisierung [der geteilten Schwelle], so dass die Menge aller Wenn Split-Punkte kombiniert werden, wird y = f (x) wiederhergestellt und es wird eine perfekte Darstellung von y = f (x) erreicht, da die Anzahl der DTs in der RF gegen unendlich tendiert. "
Redcalx
Würden die 60/40% -Vorhersagen nicht von einem Regressionsbaum verarbeitet? Das Vertrauen wäre das Klassenverhältnis in einer Blattpartition (für den Trainingssatz). Vielleicht kann / wurde dies erweitert, um auch statistische Leistung zu bewältigen
Alter
3

Ja. Die meisten Bäume haben eine Tendenz in den Schwänzen. Sehen:

Wie sollten Entscheidungsbaumsplits implementiert werden, wenn kontinuierliche Variablen vorhergesagt werden?

"Ein potenzielles Problem bei Bäumen besteht darin, dass sie dazu neigen, schlecht in die Schwänze zu passen. Stellen Sie sich einen Endknoten vor, der den niedrigen Bereich des Trainingssatzes erfasst. Er wird anhand des Mittelwerts dieser Trainingssollwerte vorhersagen, der immer unterprognostiziert wird das Ergebnis (da es der Mittelwert ist). "

topepo
quelle
Ich glaube nicht, dass dieser Kommentar für zufällige Wälder gilt
Zach
Ich glaube, dass die Referenzimplementierung von zufälligen Wäldern mit ~ 5 Beobachtungen in den Knoten endet, wenn die Antwortvariable kontinuierlich ist. Dies würde immer noch eine geringe Verzerrung mit sich bringen, wenn die Aufteilungsvariable ebenfalls kontinuierlich wäre. Ähnlich wie LOESS oft besser aussieht als ein zentrierter gleitender Durchschnitt an den Rändern der Unterstützung ...
Shea Parkes