Als «cart» getaggte Fragen

10
R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene...

10
Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...

10
Baumgröße in Gradientenbaumverstärkung

Die von Friedman vorgeschlagene Erhöhung des Gradientenbaums verwendet Entscheidungsbäume mit JEndknoten (= Blätter) als Basislerner. Es gibt eine Reihe von Möglichkeiten, einen Baum mit genau JKnoten zu züchten, zum Beispiel kann man den Baum in der Tiefe zuerst oder in der Breite zuerst züchten,...

9
Eine einfache und klare Erklärung der Gini-Verunreinigung?

Im Zusammenhang mit der Aufteilung des Entscheidungsbaums ist nicht ersichtlich, warum die Gini-Verunreinigung vorliegt i ( t ) = 1 -∑j = 1kp2( j | t )i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t) ist ein Maß für die Verunreinigung des Knotens t . Gibt es eine einfache Erklärung...

9
Führen Entscheidungsbäume eine Aufteilung von Knoten durch, indem sie in der Praxis kategoriale Werte in numerische Werte konvertieren?

Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese...

9
Sind Baumschätzer IMMER voreingenommen?

Ich mache Hausaufgaben zu Entscheidungsbäumen und eine der Fragen, die ich beantworten muss, lautet: "Warum sind Schätzer aus voreingenommenen Bäumen aufgebaut und wie hilft das Absacken, ihre Varianz zu verringern?". Jetzt weiß ich, dass überangepasste Modelle tendenziell eine sehr geringe...

9
Wie wähle ich die Anzahl der Teilungen in rpart ()?

Ich habe rpart.controlfür verwendet minsplit=2und habe die folgenden Ergebnisse von der rpart()Funktion erhalten. Muss ich Splits 3 oder Splits 7 verwenden, um eine Überanpassung der Daten zu vermeiden? Sollte ich nicht Splits 7 verwenden? Lass es mich wissen, bitte. Tatsächlich in der...

8
Selektionsbias bei Bäumen

In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren: Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007;...

8
Verwendet rpart standardmäßig multivariate Splits?

Ich weiß, dass die rpartFunktion von R die Daten behält, die für die Implementierung einer multivariaten Aufteilung erforderlich sind, aber ich weiß nicht, ob tatsächlich multivariate Aufteilungen durchgeführt werden. Ich habe versucht, es online zu recherchieren, indem ich mir die rpartDokumente...