Ich verstehe, was "Überanpassung" bedeutet, aber ich brauche Hilfe, um ein reales Beispiel für Überanpassung zu finden.
Der Prozess der Anpassung eines statistischen Modells an einen bestimmten Datensatz. Meistens am Computer und mit verschiedenen numerischen Methoden wie Optimierung oder numerischer Integration oder Simulation.
Ich verstehe, was "Überanpassung" bedeutet, aber ich brauche Hilfe, um ein reales Beispiel für Überanpassung zu finden.
Ich beginne mit der Verwendung von dabble glmnetmit LASSO Regression , wo mein Ergebnis von Interesse dichotomous ist. Ich habe unten einen kleinen nachgebildeten Datenrahmen erstellt: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45,...
Ich habe einen Informatik-Hintergrund, versuche mich aber Datenwissenschaft beizubringen, indem ich Probleme im Internet löse. Ich habe in den letzten Wochen an diesem Problem gearbeitet (ca. 900 Zeilen und 10 Features). Anfangs habe ich die logistische Regression verwendet, jetzt bin ich zu...
Ich habe eine Reihe von Daten, die nicht in einer bestimmten Reihenfolge angeordnet sind, aber bei einer klaren Darstellung zwei unterschiedliche Trends aufweisen. Eine einfache lineare Regression wäre hier aufgrund der eindeutigen Unterscheidung der beiden Reihen nicht ausreichend. Gibt es eine...
Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie...
Ich verwende Caret, um eine kreuzvalidierte zufällige Gesamtstruktur über ein Dataset auszuführen. Die Y-Variable ist ein Faktor. In meinem Datensatz befinden sich keine NaNs, Infs oder NAs. Allerdings bekomme ich, wenn ich den zufälligen Wald laufen lasse Error in randomForest.default(m, y, ...) :...
Ich bin gerade auf diese Arbeit gestoßen , in der beschrieben wird, wie die Wiederholbarkeit (auch bekannt als Zuverlässigkeit, auch bekannt als Intraclass-Korrelation) einer Messung über Mixed-Effects-Modellierung berechnet wird. Der R-Code wäre: #fit the model fit =
Ist es möglich, ein logistisches Regressionsmodell überzurüsten? Ich habe in einem Video gesehen, dass meine Fläche unter der ROC-Kurve höher als 95% ist, dann ist es sehr wahrscheinlich, dass sie überpasst wird. Kann ein logistisches Regressionsmodell jedoch überpasst
Ich trainiere ein einfaches neuronales Netzwerk mit dem CIFAR10-Datensatz. Nach einiger Zeit begann der Validierungsverlust zuzunehmen, während die Validierungsgenauigkeit ebenfalls zunahm. Der Testverlust und die Testgenauigkeit verbessern sich weiter. Wie ist das möglich? Es scheint, dass die...
Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der...
Obwohl ich diesen Beitrag gelesen habe, weiß ich immer noch nicht, wie ich das auf meine eigenen Daten anwenden soll, und hoffe, dass mir jemand helfen kann. Ich habe folgende Daten: y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269,...
Angenommen, ein Modell hat eine Genauigkeit von 100% bei den Trainingsdaten, jedoch eine Genauigkeit von 70% bei den Testdaten. Stimmt das folgende Argument für dieses Modell? Es ist offensichtlich, dass es sich um ein überarbeitetes Modell handelt. Die Testgenauigkeit kann durch Reduzieren der...
Angenommen, ich habe einen Datensatz für eine überwachte statistische Klassifizierungsaufgabe, z. B. über einen Bayes-Klassifizierer. Dieser Datensatz besteht aus 20 Merkmalen, und ich möchte ihn mithilfe von Dimensionalitätsreduktionstechniken wie der Hauptkomponentenanalyse (PCA) und / oder der...
Stimmt es, dass Bayes'sche Methoden nicht überanstrengen? (Ich habe einige Artikel und Tutorials gesehen, die diese Behauptung aufstellten.) Wenn wir beispielsweise einen Gaußschen Prozess auf MNIST anwenden (handschriftliche Ziffernklassifizierung), ihn aber nur als einzelnes Sample anzeigen,...
Zunächst einmal bin ich kein Statistiker. Ich habe jedoch eine statistische Netzwerkanalyse für meine Promotion durchgeführt. Im Rahmen der Netzwerkanalyse habe ich eine CCDF (Complementary Cumulative Distribution Function) mit Netzwerkabschlüssen aufgezeichnet. Was ich fand, war, dass im...
Ich las den Bericht über die Siegerlösung eines Kaggle-Wettbewerbs ( Malware Classification ). Der Bericht ist in diesem Forumsbeitrag zu finden . Das Problem war ein Klassifizierungsproblem (neun Klassen, die Metrik war der logarithmische Verlust) mit 10000 Elementen in der Zugmenge, 10000...
Der folgende Auszug ist aus Schwagers Hedge Fund Market Wizzards (Mai 2012), einem Interview mit dem durchweg erfolgreichen Hedge Fund Manager Jaffray Woodriff: Auf die Frage: "Was sind die schlimmsten Fehler, die Menschen beim Data Mining machen?": Viele Leute denken, dass sie in Ordnung sind,...
Ich habe das, was ich naiv für ein recht einfaches Problem hielt, das die Erkennung von Ausreißern für viele verschiedene Sätze von Zähldaten beinhaltet. Insbesondere möchte ich feststellen, ob einer oder mehrere Werte in einer Reihe von Zählungsdaten im Verhältnis zu den restlichen Zählungen in...
Nach der Durchführung der Hauptkomponentenanalyse (PCA) möchte ich einen neuen Vektor auf den PCA-Raum projizieren (dh seine Koordinaten im PCA-Koordinatensystem finden). Ich habe PCA in R-Sprache mit berechnet prcomp. Jetzt sollte ich meinen Vektor mit der PCA-Rotationsmatrix multiplizieren...
EDIT: Da diese Frage aufgeblasen wurde, eine Zusammenfassung: Finden verschiedener aussagekräftiger und interpretierbarer Datensätze mit derselben gemischten Statistik (Mittelwert, Median, Mittlerer Bereich und die damit verbundenen Streuungen und Regressionen). Das Anscombe Quartett (siehe ?...