Kann der vorhergesagte Wert bei Entscheidungsbäumen außerhalb des Bereichs der Trainingsdaten liegen?
Wenn der Trainingsdatensatzbereich der Zielvariablen beispielsweise 0-100 beträgt, können meine Werte beim Generieren und Anwenden meines Modells auf etwas anderes -5 sein? oder 150?
Da ich die Regression von Entscheidungsbäumen so verstehe, dass sie immer noch auf Regeln basiert - Links / Rechts-Progression - und dass sie am unteren Rand des Baums im Trainingssatz niemals einen Wert außerhalb eines bestimmten Bereichs sehen kann, wird dies niemals möglich sein vorhersagen?
regression
predictive-models
random-forest
cart
user3788557
quelle
quelle
Antworten:
Sie haben völlig Recht: Klassische Entscheidungsbäume können keine Werte außerhalb des historisch beobachteten Bereichs vorhersagen. Sie werden nicht extrapoliert.
Gleiches gilt für zufällige Wälder.
Theoretisch gibt es manchmal Diskussionen über etwas ausgefeiltere Architekturen (Botaniken?), Bei denen die Blätter des Baums keinen einzigen Wert angeben , sondern eine einfache Regression enthalten , z. B. die Regression der abhängigen Variablen auf eine bestimmte numerische unabhängige Variable. Wenn Sie durch den Baum navigieren, erhalten Sie einen Regelsatz für die numerische IV, auf die der DV in welchem Fall zurückgeführt werden soll. In einem solchen Fall könnte diese "unterste" Regression extrapoliert werden, um noch nicht beobachtete Werte zu erhalten.
Ich glaube jedoch nicht, dass Standardbibliotheken für maschinelles Lernen diese etwas komplexere Struktur bieten (ich habe dies kürzlich in den CRAN-Aufgabenansichten für R gesucht), obwohl es eigentlich nichts Komplexes geben sollte. Möglicherweise können Sie Ihren eigenen Baum implementieren, der Regressionen in den Blättern enthält.
quelle
mobForest
Paket aus CRAN entfernt . Ich werde mir daspartykit
Paket ansehen , das Achim Zeile empfohlen hat .Schauen Sie sich auch Cubist im Caret-Paket an. Es erstellt lineare Regressionen in den Endknoten und kann Vorhersagen über und unter dem Bereich der Antwortwerte in den Trainingsdaten extrapolieren. Die Endknoten können auch auf der Grundlage der nächsten Nachbarn gemittelt werden, die als Hyperparameter bereitgestellt werden, sodass äußerst genaue, kreuzvalidierte Vorhersagen möglich sind.
quelle