Ich verstehe, was "Überanpassung" bedeutet, aber ich brauche Hilfe, um ein reales Beispiel für Überanpassung zu finden.
Modellierungsfehler (insbesondere Stichprobenfehler) anstelle von replizierbaren und informativen Beziehungen zwischen Variablen verbessern die Modellanpassungsstatistik, verringern jedoch die Sparsamkeit und verschlechtern die erklärende und prädiktive Validität.
Ich verstehe, was "Überanpassung" bedeutet, aber ich brauche Hilfe, um ein reales Beispiel für Überanpassung zu finden.
Ich habe einen Informatik-Hintergrund, versuche mich aber Datenwissenschaft beizubringen, indem ich Probleme im Internet löse. Ich habe in den letzten Wochen an diesem Problem gearbeitet (ca. 900 Zeilen und 10 Features). Anfangs habe ich die logistische Regression verwendet, jetzt bin ich zu...
Die Idee der adaptiven Datenanalyse ist, dass Sie Ihren Plan zur Analyse der Daten ändern, wenn Sie mehr darüber erfahren. Bei der explorativen Datenanalyse (EDA) ist dies im Allgemeinen eine gute Idee (Sie suchen häufig nach unvorhergesehenen Mustern in den Daten), bei einer bestätigenden Studie...
Ist es möglich, ein logistisches Regressionsmodell überzurüsten? Ich habe in einem Video gesehen, dass meine Fläche unter der ROC-Kurve höher als 95% ist, dann ist es sehr wahrscheinlich, dass sie überpasst wird. Kann ein logistisches Regressionsmodell jedoch überpasst
Ich trainiere ein einfaches neuronales Netzwerk mit dem CIFAR10-Datensatz. Nach einiger Zeit begann der Validierungsverlust zuzunehmen, während die Validierungsgenauigkeit ebenfalls zunahm. Der Testverlust und die Testgenauigkeit verbessern sich weiter. Wie ist das möglich? Es scheint, dass die...
Ich habe Andrew Ngs Maschinelles Lernen-Kurs vor ungefähr einem Jahr abgeschlossen und schreibe jetzt meine High-School-Mathematikerkunde über die Funktionsweise der logistischen Regression und Techniken zur Leistungsoptimierung. Eine dieser Techniken ist natürlich die Regularisierung. Ziel der...
Stimmt es, dass Bayes'sche Methoden nicht überanstrengen? (Ich habe einige Artikel und Tutorials gesehen, die diese Behauptung aufstellten.) Wenn wir beispielsweise einen Gaußschen Prozess auf MNIST anwenden (handschriftliche Ziffernklassifizierung), ihn aber nur als einzelnes Sample anzeigen,...
Angenommen, ein Modell hat eine Genauigkeit von 100% bei den Trainingsdaten, jedoch eine Genauigkeit von 70% bei den Testdaten. Stimmt das folgende Argument für dieses Modell? Es ist offensichtlich, dass es sich um ein überarbeitetes Modell handelt. Die Testgenauigkeit kann durch Reduzieren der...
Angenommen, ich habe einen Datensatz für eine überwachte statistische Klassifizierungsaufgabe, z. B. über einen Bayes-Klassifizierer. Dieser Datensatz besteht aus 20 Merkmalen, und ich möchte ihn mithilfe von Dimensionalitätsreduktionstechniken wie der Hauptkomponentenanalyse (PCA) und / oder der...
Ich las den Bericht über die Siegerlösung eines Kaggle-Wettbewerbs ( Malware Classification ). Der Bericht ist in diesem Forumsbeitrag zu finden . Das Problem war ein Klassifizierungsproblem (neun Klassen, die Metrik war der logarithmische Verlust) mit 10000 Elementen in der Zugmenge, 10000...
Ich habe einige Nachforschungen über Über- und Unteranpassung angestellt und ich habe verstanden, was sie genau sind, aber ich kann die Gründe nicht finden. Was sind die Hauptgründe für Über- und Unterausstattung? Warum treten diese beiden Probleme beim Trainieren eines Modells...
Mein Setup ist wie folgt: Ich folge den Richtlinien in "Applied Predictive Modeling". Daher habe ich korrelierte Merkmale gefiltert und erhalte am Ende Folgendes: 4900 Datenpunkte im Trainingssatz und 1600 Datenpunkte im Testsatz. Ich habe 26 Funktionen und das Ziel ist eine kontinuierliche...
Regularisierung in der Regression (linear, logistisch ...) ist die beliebteste Methode, um Überanpassung zu reduzieren. Gibt es gute Alternativen zur Regularisierung, insbesondere für große Datenmengen (Millionen von Beobachtungen und Millionen von Merkmalen), wenn das Ziel Vorhersagegenauigkeit...
Der Lernratenparameter ( ) in Gradient Boosting verringert den Beitrag jedes neuen Basismodells - normalerweise eines flachen Baums -, das in der Reihe hinzugefügt wird. Es hat sich gezeigt, dass die Genauigkeit des Testsatzes drastisch erhöht wird, was verständlich ist, da mit kleineren Schritten...
Gibt es eine mathematische oder algorithmische Definition von Überanpassung? Oft werden als Definitionen das klassische 2D-Diagramm von Punkten angegeben, bei dem eine Linie durch jeden einzelnen Punkt verläuft und die Validierungsverlustkurve plötzlich ansteigt. Aber gibt es eine mathematisch...
Wenn ich Daten habe und eine Klassifizierung (sagen wir zufällige Gesamtstruktur für diese Daten) mit Kreuzvalidierung (sagen wir 5-fach) durchführe, kann ich dann den Schluss ziehen, dass meine Methode keine Überanpassung
Während die Ergebnisse des privaten Testsets nicht zur weiteren Verfeinerung des Modells verwendet werden können, wird doch anhand der Ergebnisse des privaten Testsets eine Modellauswahl aus einer Vielzahl von Modellen durchgeführt. Würden Sie nicht allein durch diesen Prozess zu einer...
Betrachten wir das Problem beim Klassifizieren des MNIST-Datasets. Laut der MNIST-Webseite von Yann LeCun , "Ciresan et al." 0,23% Fehlerrate beim MNIST-Test mit Convolutional Neural Network. Lassen Sie uns bezeichnen MNIST Trainingssatz als , MNIST Testset als , die letzte Hypothese sie erhalten...
Ich passe zurzeit zufällige Gesamtstrukturen für ein Klassifizierungsproblem mit dem randomForestPaket in R an und bin nicht sicher, wie Trainingsfehler für diese Modelle gemeldet werden sollen. Mein Trainingsfehler liegt nahe bei 0%, wenn ich ihn mit Vorhersagen berechne, die ich mit dem Befehl...
Ich bin ziemlich neu in zufälligen Wäldern. In der Vergangenheit habe ich immer die Genauigkeit von Fit vs. Test mit Fit vs. Zug verglichen , um eine Überanpassung festzustellen. Aber ich habe gerade hier gelesen , dass: "In zufälligen Gesamtstrukturen ist keine Kreuzvalidierung oder ein separater...