In allen (Regressions-) zufälligen Waldpapieren, die ich gelesen habe, nehmen wir, wenn es an der Zeit ist, die Vorhersagen aller Bäume zu sammeln, den Durchschnittswert als Vorhersage.
Meine Frage ist, warum wir das tun?
Gibt es eine statistische Begründung für die Ermittlung des Durchschnitts?
EDIT: Um die Frage zu klären, weiß ich, dass es möglich ist, andere Aggregationsfunktionen zu verwenden (wir verwenden den Modus zur Klassifizierung). Ich bin hauptsächlich daran interessiert, ob es eine theoretische Rechtfertigung für die Wahl der Durchschnittsfunktion gibt.
Antworten:
Ich habe immer über die Mittelung in Bezug auf den Bias-Varianz-Kompromiss nachgedacht. Wenn ich mich richtig erinnere, hat Leo Breiman dies in der RandomForest-Zeitung mit seiner Aussage angedeutet: "... sind robuster in Bezug auf Lärm."
Die Erklärung lautet wie folgt: Im Grunde genommen nehmen Sie eine Reihe von Bäumen, die in voller Länge gewachsen sind - kein Beschneiden -, damit Sie wissen, dass sie alle für sich voreingenommen sind. Die Zufallsstichprobe, die jeden Baum im Wald induziert, sollte jedoch ebenso oft eine Unter- oder eine Übervorspannung hervorrufen. Wenn Sie also einen Durchschnitt nehmen, eliminieren Sie die Verzerrung jedes Baums - das Über + unter Verzerrungen, die aufgehoben werden. Hoffentlich reduzieren Sie dabei auch die Varianz in jedem Baum und daher sollte auch die Gesamtvarianz reduziert werden.
Wie aus den anderen Antworten auf den Beitrag hervorgeht, ist dies möglicherweise nicht der einzige Grund für die Mittelwertbildung.
quelle
Wenn Sie den Durchschnitt verwenden, sagen Sie zwei Dinge:
Sie sollten nicht damit rechnen, dass es große Ausreißer gibt, da Sie die Stichprobengröße so groß machen können, dass sie im Durchschnitt weniger wichtig sind, und Sie von den Vorhersagen der einzelnen Bäume ein Minimum an Stabilität erwarten würden.
Es gibt keinen Grund zu der Annahme, dass einige Bäume ein höheres Vorhersagegewicht als andere haben sollten, noch eine Möglichkeit, solche Gewichte zu bestimmen.
Sie können den Modus nicht wirklich verwenden, da die Vorhersagen kontinuierlich sind. Wenn Sie beispielsweise die Vorhersagen 80 80 100 101 99 98 97 102 103 104 96 hätten, würde der Modus 80 vorhersagen. Das kann nicht das sein, was Sie wollen. Wenn alle Werte unterschiedliche Dezimalstellen haben, weiß der Modus nicht, wie er sich entscheiden soll.
Es gibt andere Mittelwerte als das arithmetische Mittel, wie das geometrische Mittel und das harmonische Mittel. Sie sind so konzipiert, dass sie den Durchschnitt senken, wenn die Datenreihe einige niedrige Werte enthält. Das wollen Sie auch hier nicht.
quelle
Natürlich können Sie jede Aggregationsfunktion verwenden, die in Ihrer speziellen Situation nützlich ist. Der Median ist eine gute Möglichkeit, eine kleine Stichprobe gegenüber Ausreißern robust zu machen. In Regressionswäldern können Sie normalerweise die Stichprobengröße beeinflussen, um das Problem kleiner Stichprobengrößen zu vermeiden. Daher erscheint der Mittelwert in einem sehr großen Teil der Anwendungsfälle sinnvoll.
quelle
Die zufällige Waldklassifizierung ( dh keine Wahrscheinlichkeitsschätzung) basiert auf dem Modus der Vorhersagen (Mehrheitsentscheidung). Sie können also die Ergebnisse nach Belieben aggregieren.
quelle
Das wichtigste zuerst. Wie viele andere Leute sagten, können Sie andere Metriken verwenden, aber der Durchschnitt ist die "Standard" -Option.
Als Standardoption würde man eine Funktion einstellen, die unter milden Bedingungen funktioniert
Wenn Sie darüber nachdenken, ist ein zufälliger Wald eine Sammlung von Bäumen, und jeder dieser Bäume hat das Ziel, Ihre numerische Antwortvariable zu schätzen.
Zusätzlich, wie @David Ernst richtig erwähnt:
Darüber hinaus gibt es keinen Grund zu der Annahme, dass diese Bäume unterschiedliche Standardabweichungen aufweisen. Wieder unter milden Bedingungen!
Davon abgesehen sollte der Durchschnitt aufgrund des schwachen Gesetzes großer Zahlen funktionieren
quelle
Im Ensemble. Bei der Mittelwertbildung wird mehr Wert auf Vertrauen als auf Mehrheit gelegt.
Beispiel Sie haben 3 Bäume,
2 von ihnen stimmen mit 22% Vertrauen für A und 1 mit 90% für B.
Wenn wir die Mehrheit verwenden, erhalten wir Stimme A. Durchschnitt von 22, N, N Wenn wir Vertrauen verwenden, erhalten wir Stimme B. Durchschnitt von 90, N, N.
Es wäre sinnvoll, das 90% ige Vertrauen zu wählen, da es sicherer ist als die Mehrheit der anderen mit nur 22% Vertrauen.
quelle