Rolle des Parameters n.minobsinnode von GBM in R [closed]
21
Ich wollte wissen, was der Parameter n.minobsinnode im GBM-Paket bedeutet. Ich habe das Handbuch gelesen, aber es ist nicht klar, was es tut. Sollte diese Zahl klein oder groß sein, um die Ergebnisse zu verbessern?
"Diese Frage wird wahrscheinlich keinen zukünftigen Besuchern weiterhelfen." Ich bin ein zukünftiger Besucher und fand es hilfreich.
Flunder
1
Ich fand es auch hilfreich.
oaxacamatt
Antworten:
25
Bei jedem Schritt des GBM-Algorithmus wird ein neuer Entscheidungsbaum erstellt. Die Frage bei der Erstellung eines Entscheidungsbaums ist, wann aufzuhören ist. Am weitesten können Sie jeden Knoten teilen, bis in jedem Endknoten nur noch 1 Beobachtung vorhanden ist. Dies würde n.minobsinnode = 1 entsprechen. Alternativ kann die Aufteilung von Knoten aufhören, wenn sich in jedem Knoten eine bestimmte Anzahl von Beobachtungen befindet. Die Standardeinstellung für das R GBM-Paket ist 10.
Was ist das beste Preis-Leistungs-Verhältnis? Dies hängt vom Datensatz ab und davon, ob Sie eine Klassifizierung oder eine Regression durchführen. Da die Vorhersage jedes Baums als Durchschnitt der abhängigen Variablen aller Eingaben im Endknoten verwendet wird, funktioniert der Wert 1 möglicherweise nicht so gut für die Regression (!), Ist jedoch möglicherweise für die Klassifizierung geeignet.
Höhere Werte bedeuten kleinere Bäume, sodass der Algorithmus schneller ausgeführt wird und weniger Speicher benötigt wird. Dies kann eine Überlegung sein.
Im Allgemeinen sind die Ergebnisse für diesen Parameter nicht sehr empfindlich, und angesichts der stochastischen Natur der GBM-Leistung ist es möglicherweise schwierig, genau zu bestimmen, welcher Wert der beste ist. Interaktionstiefe, Schrumpfung und Anzahl der Bäume werden im Allgemeinen viel wichtiger sein.
Antworten:
Bei jedem Schritt des GBM-Algorithmus wird ein neuer Entscheidungsbaum erstellt. Die Frage bei der Erstellung eines Entscheidungsbaums ist, wann aufzuhören ist. Am weitesten können Sie jeden Knoten teilen, bis in jedem Endknoten nur noch 1 Beobachtung vorhanden ist. Dies würde n.minobsinnode = 1 entsprechen. Alternativ kann die Aufteilung von Knoten aufhören, wenn sich in jedem Knoten eine bestimmte Anzahl von Beobachtungen befindet. Die Standardeinstellung für das R GBM-Paket ist 10.
Was ist das beste Preis-Leistungs-Verhältnis? Dies hängt vom Datensatz ab und davon, ob Sie eine Klassifizierung oder eine Regression durchführen. Da die Vorhersage jedes Baums als Durchschnitt der abhängigen Variablen aller Eingaben im Endknoten verwendet wird, funktioniert der Wert 1 möglicherweise nicht so gut für die Regression (!), Ist jedoch möglicherweise für die Klassifizierung geeignet.
Höhere Werte bedeuten kleinere Bäume, sodass der Algorithmus schneller ausgeführt wird und weniger Speicher benötigt wird. Dies kann eine Überlegung sein.
Im Allgemeinen sind die Ergebnisse für diesen Parameter nicht sehr empfindlich, und angesichts der stochastischen Natur der GBM-Leistung ist es möglicherweise schwierig, genau zu bestimmen, welcher Wert der beste ist. Interaktionstiefe, Schrumpfung und Anzahl der Bäume werden im Allgemeinen viel wichtiger sein.
quelle