Zufällige Waldannahmen

43

Ich bin ein bisschen neu in zufälligen Wäldern, also habe ich immer noch Probleme mit einigen grundlegenden Konzepten.
In der linearen Regression nehmen wir unabhängige Beobachtungen, konstante Varianz ... an.

  • Was sind die Grundannahmen / Hypothesen, die wir machen, wenn wir zufällige Gesamtstrukturen verwenden?
  • Was sind die Hauptunterschiede zwischen zufälligen Wäldern und naiven Bayes in Bezug auf Modellannahmen?
user1848018
quelle

Antworten:

33

Danke für eine sehr gute Frage! Ich werde versuchen, meine Intuition dahinter zu geben.

Um dies zu verstehen, müssen Sie die "Zutaten" des zufälligen Waldklassifikators berücksichtigen (es gibt einige Modifikationen, aber dies ist die allgemeine Pipeline):

  1. Bei jedem Schritt der Erstellung eines individuellen Baums finden wir die beste Aufteilung der Daten
  2. Beim Erstellen eines Baums verwenden wir nicht den gesamten Datensatz, sondern das Bootstrap-Beispiel
  3. Wir aggregieren die einzelnen Baumausgaben durch Mittelwertbildung (tatsächlich bedeutet 2 und 3 zusammen ein allgemeineres Absackverfahren ).

Angenommen, erster Punkt. Es ist nicht immer möglich, die beste Aufteilung zu finden. Zum Beispiel wird in dem folgenden Datensatz jede Aufteilung genau ein falsch klassifiziertes Objekt ergeben. Beispiel des Datensatzes ohne beste Aufteilung

Und ich denke, dass genau dieser Punkt verwirrend sein kann: In der Tat ist das Verhalten der einzelnen Teilung dem Verhalten des Naive Bayes-Klassifikators ähnlich: Wenn die Variablen abhängig sind, gibt es keine bessere Teilung für Entscheidungsbäume, und auch der Naive Bayes-Klassifikator schlägt fehl (Zur Erinnerung: Unabhängige Variablen sind die Hauptannahme, die wir im Naive Bayes-Klassifikator treffen. Alle anderen Annahmen stammen aus dem von uns gewählten Wahrscheinlichkeitsmodell.)

Aber hier kommt der große Vorteil von Entscheidungsbäumen: nehmen wir jede Spaltung und weiterhin Spaltung weiter. Und für die folgenden Splits finden wir eine perfekte Trennung (in rot). Beispiel für die Entscheidungsgrenze

Und da wir kein probabilistisches Modell haben, sondern nur eine binäre Aufteilung, müssen wir überhaupt keine Annahme treffen.

Das war etwa Decision Tree, aber es gilt auch für Random Forest. Der Unterschied besteht darin, dass wir für Random Forest die Bootstrap-Aggregation verwenden. Es gibt kein Modell darunter, und die einzige Annahme, auf die es sich stützt, ist, dass die Stichprobe repräsentativ ist . Dies ist jedoch normalerweise eine weit verbreitete Annahme. Wenn beispielsweise eine Klasse aus zwei Komponenten besteht und in unserem Datensatz eine Komponente durch 100 Stichproben und eine andere Komponente durch 1 Stichprobe dargestellt wird, wird in den meisten einzelnen Entscheidungsbäumen wahrscheinlich nur die erste Komponente angezeigt, und in Random Forest wird die zweite falsch klassifiziert . Beispiel einer schwach dargestellten zweiten Komponente

Hoffe, es wird etwas mehr Verständnis geben.

Dmitry Laptev
quelle
10

In einem Artikel aus dem Jahr 2010 dokumentierten die Autoren, dass zufällige Waldmodelle die Bedeutung von Variablen unzuverlässig einschätzten, wenn Variablen über einen mehrdimensionalen statistischen Raum mehrfarbig waren. Normalerweise überprüfe ich dies, bevor ich zufällige Gesamtstrukturmodelle ausführe.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

Mina
quelle
3
Sie glauben, dass die Schlussfolgerungen aus "Quantifizierung der Bufo-Boreas-Konnektivität im Yellowstone-Nationalpark mit der Landschaftsgenetik" in "Ökologie" von Autoren des US-Bundesstaates Colorado über Berkeley-Autoren in "Maschinelles Lernen" zum Thema "Algorithmen für maschinelles Lernen" verfasst wurden?
Hack-R
8
Ich glaube nicht, dass sie sich widersprechen. Breiman untersuchte diesen "Sonderfall" der Multicolinearität im multidimensionalen Raum nicht. Auch die Leute im Bundesstaat Colorado können schlau sein - und diese Leute auch.
Mina