Als «fitting» getaggte Fragen

107

Was ist ein reales Beispiel für "Überanpassung"?

Ich verstehe, was "Überanpassung" bedeutet, aber ich brauche Hilfe, um ein reales Beispiel für Überanpassung zu finden.

overfitting

77

Ein Beispiel: LASSO-Regression unter Verwendung von glmnet für binäre Ergebnisse

Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...

r self-study lasso regression interpretation anova statistical-significance survey conditional-probability independence naive-bayes graphical-model r time-series forecasting arima r forecasting exponential-smoothing bootstrap outliers r regression poisson-distribution zero-inflation genetic-algorithms machine-learning feature-selection cart categorical-data interpretation descriptive-statistics variance multivariate-analysis covariance-matrix r data-visualization generalized-linear-model binomial proportion pca matlab svd time-series correlation spss arima chi-squared curve-fitting text-mining zipf probability categorical-data distance group-differences bhattacharyya regression variance mean data-visualization variance clustering r standard-error association-measure somers-d normal-distribution integral numerical-integration bayesian clustering python pymc nonparametric-bayes machine-learning svm kernel-trick hyperparameter poisson-distribution mean continuous-data univariate missing-data dag python likelihood dirichlet-distribution r anova hypothesis-testing statistical-significance p-value rating data-imputation censoring threshold

41

Random Forest - Wie gehe ich mit Überanpassung um?

Ich habe einen Informatik-Hintergrund, versuche mich aber Datenwissenschaft beizubringen, indem ich Probleme im Internet löse. Ich habe in den letzten Wochen an diesem Problem gearbeitet (ca. 900 Zeilen und 10 Features). Anfangs habe ich die logistische Regression verwendet, jetzt bin ich zu...

random-forest overfitting

34

Daten weisen zwei Trends auf; Wie extrahiere ich unabhängige Trendlinien?

Ich habe eine Reihe von Daten, die nicht in einer bestimmten Reihenfolge angeordnet sind, aber bei einer klaren Darstellung zwei unterschiedliche Trends aufweisen. Eine einfache lineare Regression wäre hier aufgrund der eindeutigen Unterscheidung der beiden Reihen nicht ausreichend. Gibt es eine...

time-series python curve-fitting

29

Hat die Zeitschrift "Science" den "Garden of Forking Pathes Analysis" gebilligt?

Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie...

hypothesis-testing overfitting eda out-of-sample differential-privacy

29

R: Zufällige Gesamtstruktur, die NaN / Inf im Fehler "fremder Funktionsaufruf" trotz fehlender NaNs im Datensatz auslöst [geschlossen]

Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) :...

r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

28

Berechnung der Wiederholbarkeit von Effekten aus einem früheren Modell

Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit =

mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

28

Überanpassung eines logistischen Regressionsmodells

Ist es möglich, ein logistisches Regressionsmodell überzurüsten? Ich habe in einem Video gesehen, dass meine Fläche unter der ROC-Kurve höher als 95% ist, dann ist es sehr wahrscheinlich, dass sie überpasst wird. Kann ein logistisches Regressionsmodell jedoch überpasst

logistic overfitting regression-strategies

27

Wie ist es möglich, dass der Validierungsverlust zunimmt und gleichzeitig die Validierungsgenauigkeit zunimmt?

Ich trainiere ein einfaches neuronales Netzwerk mit dem CIFAR10-Datensatz. Nach einiger Zeit begann der Validierungsverlust zuzunehmen, während die Validierungsgenauigkeit ebenfalls zunahm. Der Testverlust und die Testgenauigkeit verbessern sich weiter. Wie ist das möglich? Es scheint, dass die...

neural-networks deep-learning conv-neural-network overfitting

27

Warum führen kleinere Gewichte zu einfacheren Regularisierungsmodellen?

Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der...

regression machine-learning optimization regularization overfitting

26

Passen Sie einen sinusförmigen Term an Daten an

Obwohl ich diesen Beitrag gelesen habe, weiß ich immer noch nicht, wie ich das auf meine eigenen Daten anwenden soll, und hoffe, dass mir jemand helfen kann. Ich habe folgende Daten: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269,...

r regression fitting

25

Ist ein überhöhtes Modell unbedingt unbrauchbar?

Angenommen, ein Modell hat eine Genauigkeit von 100% bei den Trainingsdaten, jedoch eine Genauigkeit von 70% bei den Testdaten. Stimmt das folgende Argument für dieses Modell? Es ist offensichtlich, dass es sich um ein überarbeitetes Modell handelt. Die Testgenauigkeit kann durch Reduzieren der...

model accuracy overfitting

25

Ist es sinnvoll, PCA und LDA zu kombinieren?

Angenommen, ich habe einen Datensatz für eine überwachte statistische Klassifizierungsaufgabe, z. B. über einen Bayes-Klassifizierer. Dieser Datensatz besteht aus 20 Merkmalen, und ich möchte ihn mithilfe von Dimensionalitätsreduktionstechniken wie der Hauptkomponentenanalyse (PCA) und / oder der...

classification pca regularization discriminant-analysis overfitting

25

Stimmt es, dass Bayes'sche Methoden nicht überanstrengen?

Stimmt es, dass Bayes'sche Methoden nicht überanstrengen? (Ich habe einige Artikel und Tutorials gesehen, die diese Behauptung aufstellten.) Wenn wir beispielsweise einen Gaußschen Prozess auf MNIST anwenden (handschriftliche Ziffernklassifizierung), ihn aber nur als einzelnes Sample anzeigen,...

bayesian nonparametric gaussian-process overfitting misspecification

22

Interpretation des Unterschieds zwischen lognormaler und Potenzgesetzverteilung (Netzgradverteilung)

Zunächst einmal bin ich kein Statistiker. Ich habe jedoch eine statistische Netzwerkanalyse für meine Promotion durchgeführt. Im Rahmen der Netzwerkanalyse habe ich eine CCDF (Complementary Cumulative Distribution Function) mit Netzwerkabschlüssen aufgezeichnet. Was ich fand, war, dass im...

curve-fitting networks lognormal power-law

21

"Teilüberwachtes Lernen" - ist das übertrieben?

Ich las den Bericht über die Siegerlösung eines Kaggle-Wettbewerbs ( Malware Classification ). Der Bericht ist in diesem Forumsbeitrag zu finden . Das Problem war ein Klassifizierungsproblem (neun Klassen, die Metrik war der logarithmische Verlust) mit 10000 Elementen in der Zugmenge, 10000...

machine-learning random-forest boosting overfitting semi-supervised

21

Neue revolutionäre Art des Data Mining?

Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind,...

data-mining curve-fitting out-of-sample

21

Erkennen von Ausreißern in Zähldaten

Ich habe das, was ich naiv für ein recht einfaches Problem hielt, das die Erkennung von Ausreißern für viele verschiedene Sätze von Zähldaten beinhaltet. Insbesondere möchte ich feststellen, ob einer oder mehrere Werte in einer Reihe von Zählungsdaten im Verhältnis zu den restlichen Zählungen in...

outliers count-data fitting

21

Wie projiziert man einen neuen Vektor auf den PCA-Raum?

Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren...

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Anscombe-ähnliche Datensätze mit demselben Box- und Whisker-Diagramm (Mittelwert / Standard / Median / MAD / Min / Max)

EDIT: Da diese Frage aufgeblasen wurde, eine Zusammenfassung: Finden verschiedener aussagekräftiger und interpretierbarer Datensätze mit derselben gemischten Statistik (Mittelwert, Median, Mittlerer Bereich und die damit verbundenen Streuungen und Regressionen). Das Anscombe Quartett (siehe ?...

regression descriptive-statistics curve-fitting estimators