Zufällige Wälder werden für die Regression verwendet. Soweit ich weiß, weisen sie jedoch jedem Blatt einen durchschnittlichen Zielwert zu. Da es in jedem Baum nur begrenzte Blätter gibt, gibt es nur bestimmte Werte, die das Ziel mit unserem Regressionsmodell erreichen kann. Ist es also nicht nur eine "diskrete" Regression (wie eine Schrittfunktion) und nicht wie eine lineare Regression, die "kontinuierlich" ist?
Verstehe ich das richtig? Wenn ja, welchen Vorteil bietet zufällige Gesamtstruktur bei der Regression?
regression
random-forest
cart
user110565
quelle
quelle
Antworten:
Dies ist richtig - zufällige Gesamtstrukturen diskretisieren kontinuierliche Variablen, da sie auf Entscheidungsbäumen basieren, die durch rekursive binäre Partitionierung funktionieren. Bei ausreichenden Daten und ausreichenden Teilungen kann eine Schrittfunktion mit vielen kleinen Schritten eine reibungslose Funktion erreichen. Das muss also kein Problem sein. Wenn Sie wirklich eine glatte Antwort durch einen einzelnen Prädiktor erfassen möchten, berechnen Sie den Teileffekt einer bestimmten Variablen und passen eine glatte Funktion an diese an (dies wirkt sich nicht auf das Modell selbst aus, das dieses schrittweise Zeichen beibehält).
Zufällige Gesamtstrukturen bieten für einige Anwendungen einige Vorteile gegenüber Standardregressionstechniken. Um nur drei zu nennen:
Ob es sich um eine "wahre" Regression handelt, ist etwas semantisch. Immerhin stückweise Regression ist Regression auch, aber auch nicht glatt ist. Wie jede Regression mit einem kategorialen Prädiktor, wie in den Kommentaren unten ausgeführt.
quelle
Es ist diskret, aber dann ist jede Ausgabe in Form einer Gleitkommazahl mit einer festen Anzahl von Bits diskret. Wenn ein Baum 100 Blätter hat, kann er 100 verschiedene Zahlen geben. Wenn Sie 100 verschiedene Bäume mit jeweils 100 Blättern haben, kann Ihre zufällige Gesamtstruktur theoretisch 100 ^ 100 verschiedene Werte haben, was 200 (Dezimal-) Stellen mit einer Genauigkeit von ~ 600 Bits ergeben kann. Natürlich wird es einige Überlappungen geben, so dass Sie nicht wirklich 100 ^ 100 verschiedene Werte sehen werden. Die Verteilung tendiert dazu, diskreter zu werden, je mehr man die Extreme erreicht. Jeder Baum wird ein Minimum an Blättern haben (ein Blatt, das eine Leistung liefert, die kleiner oder gleich allen anderen Blättern ist), und sobald Sie das Minimum an Blättern von jedem Baum erhalten, können Sie kein niedrigeres mehr erzielen. Es wird also einen Mindestgesamtwert für den Wald geben, und wenn Sie von diesem Wert abweichen, werden Sie damit beginnen, dass sich bis auf einige wenige Bäume nur wenige Blätter befinden und geringfügige Abweichungen von der Mindestwertzunahme bei diskreten Sprüngen auftreten. Aber verminderte Zuverlässigkeit an den Extremen ist eine Eigenschaft von Regressionen im Allgemeinen, nicht nur von zufälligen Wäldern.
quelle
Die Antwort hängt von Ihrer Definition der Regression ab, siehe Definition und Abgrenzung des Regressionsmodells . Eine übliche Definition (oder ein Teil einer Definition) ist jedoch, dass die Regression die bedingte Erwartung modelliert . Und ein Regressionsbaum kann in der Tat als Schätzer der bedingten Erwartung angesehen werden.
In den Blattknoten prognostizieren Sie den Durchschnitt der Probenbeobachtungen, die dieses Blatt erreichen, und ein arithmetisches Mittel ist ein Schätzer einer Erwartung. Das Verzweigungsmuster im Baum repräsentiert die Konditionierung.
quelle