Als «fitting» getaggte Fragen

8

Umgang mit guten Leistungen bei Trainings- und Validierungsdaten, aber sehr schlechten Leistungen bei Testdaten

Ich habe ein Regressionsproblem mit 5-6k Variablen. Ich teile meine Daten in 3 nicht überlappende Sätze ein: Training, Validierung und Testen. Ich trainiere nur mit dem Trainingssatz und generiere viele verschiedene lineare Regressionsmodelle, indem ich für jedes Modell einen anderen Satz von 200...

8

Warum würde ein statistisches Modell bei einem riesigen Datensatz überanpassen?

Für mein aktuelles Projekt muss ich möglicherweise ein Modell erstellen, um das Verhalten einer bestimmten Personengruppe vorherzusagen. Der Trainingsdatensatz enthält nur 6 Variablen (ID dient nur zu Identifikationszwecken): id, age, income, gender, job category, monthly spend in dem monthly...

modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

8

Frühes Stoppen gegen Kreuzvalidierung

Ich benutze derzeit ein frühes Anhalten in meiner Arbeit, um eine Überanpassung zu verhindern. Speziell diejenigen, die aus dem frühen Stoppen stammen, aber wann? . Ich möchte jetzt mit anderen Klassifizierungsalgorithmen vergleichen, bei denen es den Anschein hat, dass eine 10-fache...

cross-validation overfitting

8

Gitterfeinheit und Überanpassung beim Einstellen von

ich wundere mich über die optimale Gitterfeinheit und Wie ist das Verhältnis zwischen Gitterfeinheit und Überanpassung? bei Regularisierungsmethoden wie LASSO, Ridge Regression oder Elastic Net. Angenommen, ich möchte ein Regressionsmodell mit LASSO an eine Stichprobe von 500 Beobachtungen anpassen...

lasso regularization ridge-regression overfitting elastic-net

8

Wie passt man eine Poisson-Verteilung an Tabellendaten an?

Ich habe eine Tabelle mit und , die so sind, dass die Anzahl von sagt Anzahl der Kinder, die alle haben.y = ( 3062 , 587 , 284 , 103 , 33 , 4 , 2 ) x i y ix = ( 0 , 1 , 2 , 3 , 4 , 5 , 6 )x=(0,1,2,3,4,5,6)x=(0,1,2,3,4,5,6)y= ( 3062 , 587 , 284 , 103 , 33 , 4 , 2

self-study distributions maximum-likelihood fitting

8

Ein konkretes Beispiel ist die Durchführung einer SVD, um fehlende Werte zu unterstellen

Ich habe die großartigen Kommentare zum Umgang mit fehlenden Werten vor dem Anwenden von SVD gelesen, möchte aber anhand eines einfachen Beispiels wissen, wie dies funktioniert: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Wenn ich in der obigen Matrix die NA-Werte...

r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

8

Neuronales Netz: Warum kann ich nicht überanpassen?

Ich habe ein neuronales Netzwerk (Feed-Forward Single Layer), mit dem ich versuche, eine umweltbezogene Variable aus zwei Finanzvariablen vorherzusagen (Regression). Ich benutze die "Zug" -Funktion aus dem Caret-Paket. Ich benutze den nnet()Algorithmus im Caret-Paket. Ich habe zwei kontinuierliche...

r neural-networks overfitting caret

8

Höhere Überanpassung durch Datenerweiterung mit Rauschen?

Ich trainiere ein neuronales Netzwerk für die Audioklassifizierung. Ich habe es auf dem UrbanSound8K-Datensatz (Modell 1) trainiert und wollte dann bewerten, wie unterschiedliche Pegel des zusätzlichen Rauschens zu den Eingaben die Vorhersagegenauigkeit beeinflussen. Basisgenauigkeit Modell1 =...

classification neural-networks dataset overfitting

8

Absichtliche Überanpassung

Wäre es sinnvoll, ein Modell absichtlich zu überpassen? Angenommen, ich habe einen Anwendungsfall, bei dem ich weiß, dass die Daten in Bezug auf die Trainingsdaten nicht wesentlich variieren. Ich denke hier an die Verkehrsvorhersage, bei der der Verkehrsstatus einem festen Satz von Mustern folgt...

machine-learning time-series forecasting prediction overfitting

7

Warum werfen diese Daten einen Fehler in R fitdistr?

Ich versuche, eine weibliche Verteilung darauf anzupassen, habe aber Probleme. Nicht sicher warum. Was verursacht die NaNs? temp <- dput(temp) c(477.25, 2615.56, 1279.98, 581.57, 13.55, 80.4, 6640.22, 759.46, 1142.33, 134, 1232.23, 389.81, 7811.65, 992.11, 1152.4, 3139.01, 2636.78, 3294.75,...

r fitting

7

Mustererkennung im Streudiagramm

Unten sehen Sie ein Streudiagramm (maximal 10.000 US-Dollar), das die durchschnittliche Spende darstellt, die ein Projekt erhält, und die Wortzahl des Aufsatzes über die Finanzierungsanfrage für alle Projekte, die in den offenen Spenderauswahldaten dargestellt sind . Es gibt ein auffälliges Muster,...

regression data-visualization curve-fitting scatterplot

7

Ist das Modell mit höherer AUC am Testmuster besser als das nicht überpasste

Ich nehme an einer Herausforderung teil, bei der ich ein Modell erstellt habe, das 70% AUC am Zugset und 70% AUC am Hold-Out-Test-Set ausführt. Der andere Teilnehmer hat ein Modell erstellt, das 96% AUC am Zugset und 76% AUC am Hold-Out-Testset ausführt. Meiner Meinung nach ist mein Modell besser,...

validation overfitting model-comparison auc train

7

Warum alle Parameter auf die gleiche Weise regulieren?

Meine Frage bezieht sich auf die Regularisierung in der linearen Regression und der logistischen Regression. Ich mache gerade Woche 3 von Andrew Ngs Kurs über maschinelles Lernen auf Coursera. Ich verstehe, wie Überanpassung ein häufiges Problem sein kann, und ich habe eine gewisse Intuition dafür,...

regression machine-learning regularization overfitting

7

Vergleich von Ansätzen von MLE-Schätzungen einer Weibull-Verteilung

Ich muss eine Weibull-Verteilung auf einige Daten parametrisieren. Daher verwende ich die Maximum-Likelihood-Estimation (MLE) aus dem fitdistrplus-Paket in R. Ich wollte jedoch verstehen, was im Paket getan wird, und habe daher neben der Verwendung des Pakets zwei manuelle Lösungen ausprobiert, um...

maximum-likelihood fitting weibull

7

Regression für das Machtrecht

Dies ist ein Crosspost von Math SE . Ich habe einige Daten (Laufzeit eines Algorithmus) und ich denke, dass sie einem Potenzgesetz folgen yr e g= k xeinyreg=kxay_\mathrm{reg} = k x^a Ich möchte und bestimmen . Was ich bisher getan habe, ist eine lineare Regression (kleinste Quadrate) durch und...

regression fitting logarithm power-law

7

Warum führt die Kodierung der Behandlung zu einer Korrelation zwischen zufälliger Steigung und Schnittpunkt?

Betrachten Sie ein faktorielles Design innerhalb des Subjekts und innerhalb des Gegenstands, bei dem die experimentelle Behandlungsvariable zwei Ebenen (Bedingungen) aufweist. Sei m1das Maximalmodell und m2das No-Random-Correlations-Modell. m1: y ~ condition + (condition|subject) +...

r mixed-model lme4-nlme categorical-encoding machine-learning pandas proportion r irt distributions conditional-probability kernel-smoothing r data-visualization r mixed-model sas curve-fitting matplotlib data-visualization python matplotlib regression logistic simulation sas jmp logit beta-regression regression maximum-likelihood posterior

7

Ist die Kreuzvalidierung nutzlos, wenn die Hypothesen nicht verschachtelt sind?

Wenn ich in einer Regressionseinstellung viele Zufallsmodelle (ohne Berücksichtigung der Daten) generiere, indem ich einfach zufällig Koeffizientenwerte zuweise und diese Modelle dann über den Datensatz mit einer Fehlermetrik auswerte und das beste Modell basierend auf dieser Fehlermetrik auswähle,...

cross-validation overfitting ridge-regression

7

Wie passt man am leichtesten über?

Das ist eine seltsame Frage, ich weiß. Ich bin nur ein Neuling und versuche, etwas über verschiedene Klassifikatoroptionen und deren Funktionsweise zu lernen. Also stelle ich die Frage: Bei einem Datensatz mit n1-Dimensionen und n2-Beobachtungen, bei dem jede Beobachtung in n3-Buckets...

overfitting