In der folgenden Grafik
- x-Achse => Datensatzgröße
- y-Achse => Kreuzvalidierungsergebnis
Die rote Linie steht für Trainingsdaten
Die grüne Linie dient zum Testen von Daten
In einem Tutorial, auf das ich mich beziehe, sagt der Autor, dass der Punkt, an dem sich die rote und die grüne Linie überlappen, bedeutet:
Es ist unwahrscheinlich, dass das Sammeln weiterer Daten die Generalisierungsleistung erhöht, und wir befinden uns in einer Region, in der die Daten wahrscheinlich nicht ausreichend sind. Daher ist es sinnvoll, ein Modell mit mehr Kapazität auszuprobieren
Ich kann die Bedeutung des kühnen Satzes nicht ganz verstehen und wie es passiert.
Schätzen Sie jede Hilfe.
machine-learning
cross-validation
tharindu_DG
quelle
quelle
Antworten:
Die Unteranpassung bedeutet also, dass Sie immer noch in der Lage sind, Ihr Lernen zu verbessern, während die Überanpassung bedeutet, dass Sie eine Kapazität verwendet haben, die mehr als für das Lernen erforderlich ist.
Im grünen Bereich steigt der Testfehler, dh Sie sollten weiterhin Kapazitäten (entweder Datenpunkte oder Modellkomplexität) bereitstellen, um bessere Ergebnisse zu erzielen. Je grüner die Linie ist, desto flacher wird sie, dh Sie erreichen den Punkt, an dem die bereitgestellte Kapazität (dh Daten) ausreicht, und versuchen besser, die andere Art von Kapazität bereitzustellen, bei der es sich um Modellkomplexität handelt.
Wenn es Ihr Testergebnis nicht verbessert oder sogar verringert, bedeutet dies, dass die Kombination aus Datenkomplexität irgendwie optimal war und Sie das Training beenden können.
quelle
Während Kasra Manshaei eine gute allgemeine Antwort gibt (+1), möchte ich ein leicht verständliches Beispiel geben.
Gehen wir also anders herum: Angenommen, Sie haben 1000 Datenpunkte. Wenn Sie ein bisschen Mathe kennen, wählen Sie ein Polynom vom Grad 999. Jetzt können Sie die Trainingsdaten perfekt anpassen. Ihre Daten passen jedoch möglicherweise zu perfekt zu den Daten. Siehe zum Beispiel (aus meinem Blog )
In diesem Fall haben Sie andere Modelle, die ebenfalls perfekt zu den Daten passen. Offensichtlich erscheint das blaue Modell zwischen den Datenpunkten unnatürlich. Das Modell selbst ist möglicherweise nicht in der Lage, die Art der Verteilung gut zu erfassen. Daher kann es hilfreich sein, das Modell auf etwas Einfacheres zu beschränken. Dies kann ein Beispiel für eine Überanpassung sein .
quelle
In Ihrem Fall haben Sie - eine sehr kleine (oder keine) Lücke zwischen Zug- und Testkurven, die anzeigt, dass das Modell eine hohe Vorspannung / Unteranpassung aufweist. Lösung: Sie müssen ein komplexeres Modell auswählen. - Zur Vervollständigung muss ein umgekehrter Fall hinzugefügt werden, wenn der Abstand zwischen Zug- und Testkurve sehr groß ist, was auf eine hohe Varianz / Überanpassung hinweist. Lösungen: a) Erhöhung der Datensatzgröße; b) Wählen Sie ein weniger komplexes Modell, c) führen Sie eine Regularisierung durch.
quelle
Sie können Folgendes tun:
1) Ändern Sie die Funktionen, die Sie in das Modell einspeisen
2) Wählen Sie ein anderes Modell für die Arbeit
3) Laden Sie mehr Daten in das Modell (möglicherweise keine Option für Sie, aber normalerweise ist dies eine Option).
quelle