Random Forests erstellen ein Ensemble von Entscheidungsbäumen, wobei jeder Baum mithilfe eines Bootstrap-Beispiels der ursprünglichen Trainingsdaten (Beispiel für Eingabevariablen und Beobachtungen) erstellt wird.
Kann ein ähnlicher Prozess für die lineare Regression angewendet werden? Erstellen Sie k lineare Regressionsmodelle mit einer zufälligen Bootstrap-Stichprobe für jede der k Regressionen
Was sind die Gründe, NICHT ein "zufälliges Regressionsmodell" zu erstellen?
Vielen Dank. Wenn ich etwas grundlegend missverstehe, lass es mich bitte wissen.
a_0 + a_1 * x_1 + ... + a_d * x_d
die resultierende gemittelte lineare Funktion beim Bootstrap-Aggregieren von linearen Funktionen des Formulars (nach dem Bootstrap-Aggregieren) immer noch dieselbe lineare Funktionsform wie diejenige, mit der Sie beginnen (dh der „Grundschüler“).Antworten:
Ich stimme den vorliegenden Antworten teilweise nicht zu, da die Methodik der Zufallsgesamtstruktur auf der Einführung von Varianz (CARTs, die auf Bootstrapped-Samples + Zufallsunterraummethode basieren) aufbaut, um sie unabhängig zu machen. Wenn Sie orthogonale Bäume haben, ist der Durchschnitt der Vorhersagen (in vielen Fällen) besser als der Durchschnitt der Bäume (aufgrund der Jensen-Ungleichung). Obwohl WARENKÄSTEN bei dieser Behandlung bemerkenswerte Vorteile aufweisen, gilt diese Methodik definitiv für jedes Modell, und lineare Modelle sind keine Ausnahme. Hier ist ein R-Paket, das genau das ist, was Sie suchen. Es enthält ein nettes Tutorial zum Stimmen und Interpretieren sowie eine Bibliographie zum Thema: Zufällige verallgemeinerte lineare Modelle .
quelle
Um die Antwort von @ ziggystar in Bezug auf maschinelles Lernen zu formulieren: Die Idee hinter Bootstrap-Aggregationstechniken (z. B. Random Forests) besteht darin, Daten mit einem gewissen Element von "Zufälligkeit" oder "Instabilität" an viele Low-Bias-Modelle mit hoher Varianz anzupassen. Bei zufälligen Gesamtstrukturen wird die Instabilität durch Bootstrapping und Auswahl einer zufälligen Menge von Features zum Teilen der einzelnen Knoten des Baums hinzugefügt. Durch Mittelwertbildung über diese verrauschten, aber vorurteilsarmen Bäume wird die hohe Varianz jedes einzelnen Baums verringert.
Während Regressions- / Klassifizierungsbäume "Low-Bias, High-Varianz" -Modelle sind, sind lineare Regressionsmodelle typischerweise das Gegenteil - "High-Bias, Low-Varianz". Daher besteht das Problem, mit dem man bei linearen Modellen häufig konfrontiert ist, darin, die Verzerrung zu verringern, nicht die Varianz zu verringern. Die Bootstrap-Aggregation wird dazu einfach nicht durchgeführt.
Ein zusätzliches Problem ist, dass Bootstrapping in einem typischen linearen Modell möglicherweise nicht genügend "Zufälligkeit" oder "Instabilität" liefert. Ich würde erwarten, dass ein Regressionsbaum empfindlicher auf die Zufälligkeit von Bootstrap-Beispielen reagiert, da jedes Blatt normalerweise nur eine Handvoll Datenpunkte enthält. Darüber hinaus können Regressionsbäume stochastisch gezüchtet werden, indem der Baum auf eine zufällige Teilmenge von Variablen an jedem Knoten aufgeteilt wird. In dieser vorherigen Frage erfahren Sie, warum dies wichtig ist: Warum werden zufällige Wälder basierend auf m zufälligen Features aufgeteilt?
Trotzdem können Sie auf jeden Fall Bootstrapping für lineare Modelle [LINK] verwenden , was in bestimmten Zusammenhängen sehr hilfreich sein kann. Die Motivation unterscheidet sich jedoch stark von den Bootstrap-Aggregationstechniken.
quelle
Und deshalb ist es nicht so attraktiv, das "Zufällige" mit linearen Modellen zu machen wie mit Entscheidungsbäumen:
Ein großer Entscheidungsbaum, der aus einer großen Stichprobe erstellt wurde, passt sehr wahrscheinlich zu den Daten, und die Zufallswaldmethode bekämpft diesen Effekt, indem sie sich auf eine Abstimmung mit vielen kleinen Bäumen stützt.
Die lineare Regression hingegen ist ein Modell, das nicht sehr anfällig für Überanpassungen ist und daher nicht dadurch verletzt wird, dass es am Anfang an der gesamten Stichprobe trainiert wird. Und selbst wenn Sie viele Regressorvariablen haben, können Sie andere Techniken anwenden, z. B. die Regularisierung, um Überanpassung zu bekämpfen.
quelle
Ich stimme @ziggystar zu. Wie die Anzahl der Bootstrap-Beispielek gegen Unendlich konvergiert, konvergiert die eingesackte Schätzung des linearen Modells gegen die Schätzung des linearen Modells nach OLS (Ordinary Least Squares) für die gesamte Stichprobe. Der Weg, dies zu beweisen, besteht darin, dass Bootstrap vorgibt, die Bevölkerungsverteilung sei dieselbe wie die empirische Verteilung. Wenn Sie immer mehr Datensätze aus dieser empirischen Verteilung abtasten, konvergiert der Durchschnitt der geschätzten Hyperebenen durch asymptotische Eigenschaften der gewöhnlichen kleinsten Quadrate zur "wahren Hyperebene" (OLS-Schätzung für die gesamten Daten).
Auch das Absacken ist nicht immer gut. Es bekämpft nicht nur nicht die Voreingenommenheit, sondern kann in einigen besonderen Fällen die Voreingenommenheit erhöhen . Beispiel:X1, X2, . . . , Xn∼ B e ( p )
(Bernoulli - Versuche, die mit Wahrscheinlichkeit den Wert 1 annehmen p und Wert 0 mit Wahrscheinlichkeit 1 - p ). Lassen Sie uns weiter Parameter definieren
θ = 1{ p > 0 }
und versuchen es zu schätzen. Natürlich genügt es, einen einzelnen Datenpunkt zu sehenXich= 1 das zu wissen θ = 1 . Die gesamte Stichprobe kann einen solchen Datenpunkt enthalten und eine Schätzung ermöglichenθ ohne fehler. Andererseits enthält ein Bootstrap-Beispiel möglicherweise keinen solchen Datenpunkt und führt zu einer falschen Schätzungθ mit 0 (wir nehmen hier kein Bayes'sches Gerüst an, jagt gute alte Methode der maximalen Wahrscheinlichkeit). Mit anderen Worten,
B i a s b a g g i n g= P r O b ( i n a b o o t s t r ein p s a m p l e X ( 1 )= . . . = X( n )= 0 ) >0,
bedingt weiter θ = 1 .
quelle