Kann die Random Forest-Methodik auf lineare Regressionen angewendet werden?

14

Random Forests erstellen ein Ensemble von Entscheidungsbäumen, wobei jeder Baum mithilfe eines Bootstrap-Beispiels der ursprünglichen Trainingsdaten (Beispiel für Eingabevariablen und Beobachtungen) erstellt wird.

Kann ein ähnlicher Prozess für die lineare Regression angewendet werden? Erstellen Sie k lineare Regressionsmodelle mit einer zufälligen Bootstrap-Stichprobe für jede der k Regressionen

Was sind die Gründe, NICHT ein "zufälliges Regressionsmodell" zu erstellen?

Vielen Dank. Wenn ich etwas grundlegend missverstehe, lass es mich bitte wissen.

Rick
quelle
Beim Bootstrap-Aggregieren von Bäumen wird die allgemeine Regressionsfunktion mit jedem hinzugefügten Baum immer komplexer. Andererseits hat a_0 + a_1 * x_1 + ... + a_d * x_ddie resultierende gemittelte lineare Funktion beim Bootstrap-Aggregieren von linearen Funktionen des Formulars (nach dem Bootstrap-Aggregieren) immer noch dieselbe lineare Funktionsform wie diejenige, mit der Sie beginnen (dh der „Grundschüler“).
Andre Holzner
1
@Andre Holzner - was du sagst, stimmt, aber, aber, aber ... dieses zufällige Forrest ist eigentlich eine Form der Regularisierung, in einer ähnlichen Klasse wie Ridging. Ich verrate Ihnen ein Geheimnis, ein Regressionsbaum ist eigentlich ein lineares Modell - ähnlich wie Splines. Wenn ich meinen Bayesianischen Hut aufsetze, würde der zufällige Forrest Regulariser wahrscheinlich in etwa den "Spike and Slab" -Prioren entsprechen, die im Bayesianischen Kontext verwendet werden.
Wahrscheinlichkeitsrechnung
@ Wahrscheinlichkeitslogik, können Sie erklären?
Simon Kuang
Sie können sich Bäume als lineares Modell vorstellen . Z t ist eine Entwurfsmatrix, die angibt, zu welchem ​​Endknoten jede Beobachtung für den Baum t gehört , und & thgr; t ist der entsprechende Vektor von Endknotenvorhersagen. Jeder Baum kann auf diese Weise beschrieben werden - die Auswahl eines Baums entspricht der Auswahl eines linearen Standardmodells im Raum von Z t - von dem es nach meiner Meinung 2 n mögliche "Endknoten" -Konfigurationen gibt (wobei n die Trainingsstichprobengröße ist). y=Ztθt+eZttθtZt2nn
Wahrscheinlichkeitsrechnung

Antworten:

5

Ich stimme den vorliegenden Antworten teilweise nicht zu, da die Methodik der Zufallsgesamtstruktur auf der Einführung von Varianz (CARTs, die auf Bootstrapped-Samples + Zufallsunterraummethode basieren) aufbaut, um sie unabhängig zu machen. Wenn Sie orthogonale Bäume haben, ist der Durchschnitt der Vorhersagen (in vielen Fällen) besser als der Durchschnitt der Bäume (aufgrund der Jensen-Ungleichung). Obwohl WARENKÄSTEN bei dieser Behandlung bemerkenswerte Vorteile aufweisen, gilt diese Methodik definitiv für jedes Modell, und lineare Modelle sind keine Ausnahme. Hier ist ein R-Paket, das genau das ist, was Sie suchen. Es enthält ein nettes Tutorial zum Stimmen und Interpretieren sowie eine Bibliographie zum Thema: Zufällige verallgemeinerte lineare Modelle .

JEquihua
quelle
14

Um die Antwort von @ ziggystar in Bezug auf maschinelles Lernen zu formulieren: Die Idee hinter Bootstrap-Aggregationstechniken (z. B. Random Forests) besteht darin, Daten mit einem gewissen Element von "Zufälligkeit" oder "Instabilität" an viele Low-Bias-Modelle mit hoher Varianz anzupassen. Bei zufälligen Gesamtstrukturen wird die Instabilität durch Bootstrapping und Auswahl einer zufälligen Menge von Features zum Teilen der einzelnen Knoten des Baums hinzugefügt. Durch Mittelwertbildung über diese verrauschten, aber vorurteilsarmen Bäume wird die hohe Varianz jedes einzelnen Baums verringert.

Während Regressions- / Klassifizierungsbäume "Low-Bias, High-Varianz" -Modelle sind, sind lineare Regressionsmodelle typischerweise das Gegenteil - "High-Bias, Low-Varianz". Daher besteht das Problem, mit dem man bei linearen Modellen häufig konfrontiert ist, darin, die Verzerrung zu verringern, nicht die Varianz zu verringern. Die Bootstrap-Aggregation wird dazu einfach nicht durchgeführt.

Ein zusätzliches Problem ist, dass Bootstrapping in einem typischen linearen Modell möglicherweise nicht genügend "Zufälligkeit" oder "Instabilität" liefert. Ich würde erwarten, dass ein Regressionsbaum empfindlicher auf die Zufälligkeit von Bootstrap-Beispielen reagiert, da jedes Blatt normalerweise nur eine Handvoll Datenpunkte enthält. Darüber hinaus können Regressionsbäume stochastisch gezüchtet werden, indem der Baum auf eine zufällige Teilmenge von Variablen an jedem Knoten aufgeteilt wird. In dieser vorherigen Frage erfahren Sie, warum dies wichtig ist: Warum werden zufällige Wälder basierend auf m zufälligen Features aufgeteilt?

Trotzdem können Sie auf jeden Fall Bootstrapping für lineare Modelle [LINK] verwenden , was in bestimmten Zusammenhängen sehr hilfreich sein kann. Die Motivation unterscheidet sich jedoch stark von den Bootstrap-Aggregationstechniken.

Alex Williams
quelle
Danke für die Links und die Antwort. Wenn die Zufallsmethode für Modelle mit "niedriger Abweichung und hoher Varianz" nützlich ist, gibt es Methoden für den Umgang mit der entgegengesetzten Art von Modellen mit "hoher Abweichung und niedriger Varianz"?
Rick
Wenn Sie ein Modell mit niedriger Verzerrung und hoher Varianz haben, können Methoden wie Absacken die Varianz bei einem leichten Anstieg der Verzerrung verringern. Wenn Sie eine hohe Verzerrung und eine niedrige Varianz haben, verwenden Sie ein Modell, das eine geringere Verzerrung und eine höhere Varianz aufweist - wie eine Polynomregression oder allgemeinere Kernelmethoden.
Joe
10

kkStrukturell gleiche lineare Modelle sind wiederum ein strukturell gleiches lineares Modell, einfach mit gemittelten Parametern (verwenden Sie das Verteilungsgesetz). Aber ich habe nicht nachgerechnet und bin mir nicht ganz sicher.

Und deshalb ist es nicht so attraktiv, das "Zufällige" mit linearen Modellen zu machen wie mit Entscheidungsbäumen:

Ein großer Entscheidungsbaum, der aus einer großen Stichprobe erstellt wurde, passt sehr wahrscheinlich zu den Daten, und die Zufallswaldmethode bekämpft diesen Effekt, indem sie sich auf eine Abstimmung mit vielen kleinen Bäumen stützt.

Die lineare Regression hingegen ist ein Modell, das nicht sehr anfällig für Überanpassungen ist und daher nicht dadurch verletzt wird, dass es am Anfang an der gesamten Stichprobe trainiert wird. Und selbst wenn Sie viele Regressorvariablen haben, können Sie andere Techniken anwenden, z. B. die Regularisierung, um Überanpassung zu bekämpfen.

Zickzack
quelle
0

Ich stimme @ziggystar zu. Wie die Anzahl der Bootstrap-Beispielekgegen Unendlich konvergiert, konvergiert die eingesackte Schätzung des linearen Modells gegen die Schätzung des linearen Modells nach OLS (Ordinary Least Squares) für die gesamte Stichprobe. Der Weg, dies zu beweisen, besteht darin, dass Bootstrap vorgibt, die Bevölkerungsverteilung sei dieselbe wie die empirische Verteilung. Wenn Sie immer mehr Datensätze aus dieser empirischen Verteilung abtasten, konvergiert der Durchschnitt der geschätzten Hyperebenen durch asymptotische Eigenschaften der gewöhnlichen kleinsten Quadrate zur "wahren Hyperebene" (OLS-Schätzung für die gesamten Daten).

Auch das Absacken ist nicht immer gut. Es bekämpft nicht nur nicht die Voreingenommenheit, sondern kann in einigen besonderen Fällen die Voreingenommenheit erhöhen . Beispiel:

X1,X2,...,XnBe(p)
(Bernoulli - Versuche, die mit Wahrscheinlichkeit den Wert 1 annehmen p und Wert 0 mit Wahrscheinlichkeit 1-p). Lassen Sie uns weiter Parameter definieren
θ=1{p>0}
und versuchen es zu schätzen. Natürlich genügt es, einen einzelnen Datenpunkt zu sehenXich=1 das zu wissen θ=1. Die gesamte Stichprobe kann einen solchen Datenpunkt enthalten und eine Schätzung ermöglichenθohne fehler. Andererseits enthält ein Bootstrap-Beispiel möglicherweise keinen solchen Datenpunkt und führt zu einer falschen Schätzungθmit 0 (wir nehmen hier kein Bayes'sches Gerüst an, jagt gute alte Methode der maximalen Wahrscheinlichkeit). Mit anderen Worten,
Bicheins beinGGichnG=PrÖb(ichn ein bÖÖtstreinp seinmple X(1)=...=X(n)=0)>0,
bedingt weiter θ=1.

stans - Setzen Sie Monica wieder ein
quelle