Ich denke, dies ist eine einfache Frage, obwohl die Gründe dafür, warum oder warum nicht, möglicherweise nicht zutreffen. Der Grund, den ich frage, ist, dass ich kürzlich meine eigene Implementierung eines RF geschrieben habe und obwohl es gut funktioniert, funktioniert es nicht ganz so gut, wie ich es erwartet hatte (basierend auf dem Wettbewerbsdatensatz der Kaggle Photo Quality Prediction , den Gewinnergebnissen und einigen von ihnen die nachfolgenden Informationen darüber, welche Techniken verwendet wurden).
Das erste, was ich unter solchen Umständen mache, ist ein Plot-Vorhersagefehler für mein Modell. Daher bestimme ich für jeden gegebenen Vorhersagewert die mittlere Abweichung (oder Abweichung) vom richtigen Zielwert. Für meine RF habe ich diese Handlung bekommen:
Ich frage mich, ob dies ein häufig beobachtetes Bias-Muster für RF ist (wenn nicht, könnte es möglicherweise etwas Spezifisches für den Datensatz und / oder meine Implementierung sein). Ich kann dieses Diagramm natürlich verwenden, um Vorhersagen zu verbessern, indem ich es zum Ausgleich der Verzerrung verwende, aber ich frage mich, ob das RF-Modell selbst einen grundlegenderen Fehler oder Mangel aufweist, der behoben werden muss. Vielen Dank.
== ADDENDUM ==
Meine erste Untersuchung ist bei diesem Blogeintrag Random Forest Bias - Update
quelle
Antworten:
(Ich bin weit von Experten. Dies sind nur Träumereien von einem Junior-Statistiker , die mit unterschiedlichen behandelt hat, aber lose analog, Fragen. Meine Antwort von Kontext heraus könnte.)
Angesichts einer neuen Stichprobe, die vorhergesagt werden soll, und eines Orakels, das Zugang zu einem viel größeren Trainingssatz hat, lautet die "beste" und ehrlichste Vorhersage vielleicht "Ich sage mit einer Wahrscheinlichkeit von 60% voraus, dass dies eher in die rote Klasse gehört als." die blaue Klasse ".
Ich werde ein konkreteres Beispiel geben. Stellen Sie sich vor, dass es in unserem sehr großen Trainingsset eine große Anzahl von Stichproben gibt, die unserer neuen Stichprobe sehr ähnlich sind. Davon sind 60% blau und 40% rot. Und es scheint nichts zu geben, was den Blues vom Roten unterscheidet. In einem solchen Fall ist es offensichtlich, dass 60% / 40% die einzige Vorhersage ist, die eine gesunde Person treffen kann.
Natürlich haben wir kein solches Orakel, sondern viele Bäume. Einfache Entscheidungsbäume sind nicht in der Lage, diese 60% / 40% -Vorhersagen zu treffen, und daher macht jeder Baum eine diskrete Vorhersage (Rot oder Blau, nichts dazwischen). Da diese neue Stichprobe nur auf die rote Seite der Entscheidungsfläche fällt, werden Sie feststellen, dass fast alle Bäume eher Rot als Blau vorhersagen. Jeder Baum gibt vor, sicherer zu sein als er ist, und es beginnt ein Ansturm auf eine voreingenommene Vorhersage.
Das Problem ist, dass wir dazu neigen, die Entscheidung eines einzelnen Baums falsch zu interpretieren. Wenn ein einzelner Baum einen Knoten in die rote Klasse einfügt, sollten wir dies nicht als 100% / 0% -Vorhersage des Baums interpretieren. (Ich sage nicht nur, dass wir 'wissen', dass es wahrscheinlich eine schlechte Vorhersage ist. Ich sage etwas Stärkeres, dh wir sollten vorsichtig sein, dass wir es als Vorhersage des Baumes interpretieren.) Ich kann nicht genau erläutern, wie dies behoben werden kann. Es ist jedoch möglich, Ideen aus statistischen Bereichen auszuleihen, wie mehr „unscharfe“ Teilungen innerhalb eines Baums erstellt werden können, um einen einzelnen Baum zu ermutigen, ehrlicher mit seiner Unsicherheit umzugehen. Dann sollte es möglich sein, die Vorhersagen aus einem Wald von Bäumen sinnvoll zu mitteln.
Ich hoffe das hilft ein wenig. Wenn nicht, hoffe ich, aus den Antworten zu lernen.
quelle
Ja. Die meisten Bäume haben eine Tendenz in den Schwänzen. Sehen:
Wie sollten Entscheidungsbaumsplits implementiert werden, wenn kontinuierliche Variablen vorhergesagt werden?
"Ein potenzielles Problem bei Bäumen besteht darin, dass sie dazu neigen, schlecht in die Schwänze zu passen. Stellen Sie sich einen Endknoten vor, der den niedrigen Bereich des Trainingssatzes erfasst. Er wird anhand des Mittelwerts dieser Trainingssollwerte vorhersagen, der immer unterprognostiziert wird das Ergebnis (da es der Mittelwert ist). "
quelle