Als «cart» getaggte Fragen

10

R lineare Regression kategoriale Variable "versteckter" Wert

Dies ist nur ein Beispiel, auf das ich mehrmals gestoßen bin, daher habe ich keine Beispieldaten. Ausführen eines linearen Regressionsmodells in R: a.lm = lm(Y ~ x1 + x2) x1ist eine stetige Variable. x2ist kategorisch und hat drei Werte, z. B. "Niedrig", "Mittel" und "Hoch". Die von R gegebene...

r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

10

Warum haben Anova () und drop1 () unterschiedliche Antworten für GLMMs geliefert?

Ich habe ein GLMM der Form: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Wenn ich benutze drop1(model, test="Chi"), erhalte ich andere Ergebnisse als wenn ich Anova(model, type="III")aus dem Autopaket oder benutze summary(model). Diese...

r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

10

Baumgröße in Gradientenbaumverstärkung

Die von Friedman vorgeschlagene Erhöhung des Gradientenbaums verwendet Entscheidungsbäume mit JEndknoten (= Blätter) als Basislerner. Es gibt eine Reihe von Möglichkeiten, einen Baum mit genau JKnoten zu züchten, zum Beispiel kann man den Baum in der Tiefe zuerst oder in der Breite zuerst züchten,...

r cart boosting

10

Entscheidungsbäume Variable (Feature) Skalierung und Variable (Feature) Normalisierung (Tuning) in welchen Implementierungen erforderlich?

In vielen Algorithmen für maschinelles Lernen ist die Feature-Skalierung (auch bekannt als variable Skalierung, Normalisierung) ein häufiger Vorverarbeitungsschritt. Wikipedia - Feature-Skalierung - Diese Frage war knapp. Frage 41704 - Wie und warum funktionieren Normalisierung und...

machine-learning feature-selection cart

9

Wie werden CP-Werte (Cost Complexity) in RPART (oder Entscheidungsbäumen im Allgemeinen) berechnet?

rpartSoweit ich weiß, hilft das Argument cp für die Funktion dabei, den Baum auf die gleiche Weise wie die Argumente minsplit oder minbucket vorab zu bereinigen. Was ich nicht verstehe, ist, wie CP-Werte berechnet werden. Zum Beispiel df<-data.frame(x=c(1,2,3,3,3,4), y=as.factor(c(TRUE, TRUE,...

r cart rpart

9

Eine einfache und klare Erklärung der Gini-Verunreinigung?

Im Zusammenhang mit der Aufteilung des Entscheidungsbaums ist nicht ersichtlich, warum die Gini-Verunreinigung vorliegt i ( t ) = 1 -∑j = 1kp2( j | t )i(t)=1−∑j=1kp2(j|t) i(t)=1-\sum\limits_{j=1}^k p^2(j|t) ist ein Maß für die Verunreinigung des Knotens t . Gibt es eine einfache Erklärung...

cart intuition gini

9

Untersuchung der Unterschiede zwischen Populationen

Angenommen, wir haben eine Stichprobe aus zwei Populationen: Aund B. Nehmen wir an, diese Populationen bestehen aus Individuen und wir beschreiben Individuen anhand von Merkmalen. Einige dieser Funktionen sind kategorisch (z. B. fahren sie zur Arbeit?) Und andere numerisch (z. B. ihre Höhe). Nennen...

anova random-forest cart group-differences

9

Kann eine baumbasierte Regression schlechter abschneiden als eine einfache lineare Regression?

Hallo, ich studiere Regressionstechniken. Meine Daten haben 15 Funktionen und 60 Millionen Beispiele (Regressionsaufgabe). Als ich viele bekannte Regressionstechniken ausprobierte (gradientenverstärkter Baum, Entscheidungsbaumregression, AdaBoostRegressor usw.), lief die lineare Regression...

regression modeling deep-learning model cart

9

Führen Entscheidungsbäume eine Aufteilung von Knoten durch, indem sie in der Praxis kategoriale Werte in numerische Werte konvertieren?

Verwenden wir in Entscheidungsbäumen bei der Klassifizierung oder Regression nur numerische Werte? Angenommen, ich habe eine kategoriale Spalte Windals Feature. Angenommen , ich habe am 5 Zeilen (Beobachtungen) und die Werte für Windsind [ high, low, high, medium, medium]. Kann ich diese...

machine-learning categorical-data random-forest cart many-categories

9

Sind Baumschätzer IMMER voreingenommen?

Ich mache Hausaufgaben zu Entscheidungsbäumen und eine der Fragen, die ich beantworten muss, lautet: "Warum sind Schätzer aus voreingenommenen Bäumen aufgebaut und wie hilft das Absacken, ihre Varianz zu verringern?". Jetzt weiß ich, dass überangepasste Modelle tendenziell eine sehr geringe...

cart bias

9

Wie bewertet man die Anpassungsgüte für Überlebensfunktionen?

Ich bin ein Neuling in der Überlebensanalyse, obwohl ich einige Kenntnisse in Klassifikation und Regression habe. Für die Regression haben wir MSE- und R-Quadrat-Statistiken. Aber wie können wir sagen, dass das Überlebensmodell A neben einigen grafischen Darstellungen (KM-Kurve) dem...

regression survival goodness-of-fit cart rpart

9

Wie wähle ich die Anzahl der Teilungen in rpart ()?

Ich habe rpart.controlfür verwendet minsplit=2und habe die folgenden Ergebnisse von der rpart()Funktion erhalten. Muss ich Splits 3 oder Splits 7 verwenden, um eine Überanpassung der Daten zu vermeiden? Sollte ich nicht Splits 7 verwenden? Lass es mich wissen, bitte. Tatsächlich in der...

r cart rpart

9

Definition der Komplexität eines Baumes in xgboost

Als ich über den xgboost-Algorithmus recherchierte, ging ich die Dokumentation durch . Bei diesem Ansatz werden Bäume unter Verwendung der Komplexitätsdefinition wobei und Parameter sind, die Anzahl von ist Terminalblätter und ist die Punktzahl in jedem

cart regularization boosting gradient-descent overfitting

9

Erfassen CART-Bäume Interaktionen zwischen Prädiktoren?

In diesem Artikel wird behauptet, dass in CART, da bei jedem Schritt eine binäre Aufteilung an einer einzelnen Kovariate durchgeführt wird, alle Aufteilungen orthogonal sind und daher Wechselwirkungen zwischen Kovariaten nicht berücksichtigt werden. Viele sehr ernsthafte Referenzen behaupten jedoch...

machine-learning classification data-mining cart

8

Literatur zum Algorithmus zur optimalen Aufteilung beim Wachstum von Klassifikationsbäumen

In ESL , Abschnitt 9.7, gibt es einen Absatz, der besagt, dass die Berechnungszeit einer Aufteilung beim Wachstum eines Klassifizierungs- (oder Regressions-) Baums typischerweise wie skaliert, wobei die Anzahl der Prädiktoren und die Anzahl von ist Proben.p N.pNlogNpNlog⁡Np N \log NpppNNN Ein...

algorithms cart

8

Sollte das Beschneiden beim Absacken (mit Entscheidungsbäumen) vermieden werden?

Ich kam durch mehrere Posts und Papiere, in denen behauptet wurde, dass das Beschneiden von Bäumen in einem "Absack" -Baumensemble nicht erforderlich ist (siehe 1 ). Ist es jedoch notwendigerweise (oder zumindest in einigen bekannten Fällen) schädlich, die einzelnen Bäume in einem Ensemble zu...

bootstrap cart bagging

8

Selektionsbias bei Bäumen

In Applied Predictive Modeling von Kuhn und Johnson schreiben die Autoren: Schließlich leiden diese Bäume unter Selektionsverzerrungen: Prädiktoren mit einer höheren Anzahl unterschiedlicher Werte werden gegenüber detaillierteren Prädiktoren bevorzugt (Loh und Shih, 1997; Carolin et al., 2007;...

cart bias

8

Verwendet rpart standardmäßig multivariate Splits?

Ich weiß, dass die rpartFunktion von R die Daten behält, die für die Implementierung einer multivariaten Aufteilung erforderlich sind, aber ich weiß nicht, ob tatsächlich multivariate Aufteilungen durchgeführt werden. Ich habe versucht, es online zu recherchieren, indem ich mir die rpartDokumente...

r multivariate-analysis cart

8

Vorteil von GLMs in Endknoten eines Regressionsbaums?

Ich spiele also mit der Idee, einen Algorithmus zu schreiben, der einen Regressionsbaum aus den Daten vergrößert und abschneidet und dann in den Endknoten des Baums einen GLM anpasst. Ich habe versucht, mich über die Idee zu informieren, aber ich kann anscheinend keinen einheitlichen Namen für die...

regression generalized-linear-model cart

8

Interpretation der Ausgabe von ctree {partykit} in R.

Datengenauigkeiten: Zitat ist eine Dummy-Variable Minuten zählen alle Minuten innerhalb eines Tages Temperatur ist die Temperatur Hier ist mein Code: ctree <- ctree(quotation ~ minute + temp, data = visitquot) print(ctree) Fitted party: [1] root | [2] minute <= 600 | | [3] minute <= 227 |...

r data-visualization cart