Ich habe kürzlich eine kleine Browser-App erstellt, mit der Sie mit den folgenden Ideen spielen können: Scatterplot Smoothers (*).
Hier sind einige Daten, die ich mit einer Polynomanpassung niedrigen Grades zusammengestellt habe
0,60,850,85
Um uns von Verzerrungen zu befreien, können wir den Grad der Kurve auf drei erhöhen, aber das Problem bleibt, die kubische Kurve ist immer noch zu starr
Also erhöhen wir den Grad weiter, aber jetzt haben wir das gegenteilige Problem
Diese Kurve verfolgt die Daten zu genau und tendiert dazu, in Richtungen zu fliegen, die durch allgemeine Muster in den Daten nicht so gut untermauert werden. Hier kommt die Regularisierung ins Spiel. Mit der gleichen Gradkurve (zehn) und einigen gut gewählten Regularisierungen
Wir bekommen eine wirklich schöne Passform!
Es lohnt sich, sich ein wenig auf einen der oben genannten Aspekte zu konzentrieren . Wenn Sie Polynome an Daten anpassen, haben Sie eine diskrete Auswahl an Abstufungen. Wenn eine Kurve mit Grad drei nicht fit ist und eine Kurve mit Grad vier überfit ist, können Sie nicht in die Mitte gehen. Die Regularisierung löst dieses Problem, da Sie ständig mit einer Reihe von Komplexitätsparametern spielen können.
wie behauptest du "Wir bekommen eine wirklich schöne Passform!" Für mich sehen sie alle gleich aus, nämlich nicht schlüssig. Welches Rational verwenden Sie, um zu entscheiden, was eine gute und eine schlechte Passform ist?
Gutes Argument.
Die Annahme, die ich hier mache, ist, dass ein gut angepasstes Modell kein erkennbares Muster in den Residuen haben sollte. Jetzt zeichne ich nicht die Residuen, also musst du ein bisschen arbeiten, wenn du dir die Bilder ansiehst, aber du solltest in der Lage sein, deine Vorstellungskraft zu nutzen.
Im ersten Bild sehe ich, wenn die quadratische Kurve an die Daten angepasst ist, das folgende Muster in den Residuen
- Von 0,0 bis 0,3 sind sie ungefähr gleichmäßig über und unter der Kurve angeordnet.
- Von 0,3 bis etwa 0,55 liegen alle Datenpunkte über der Kurve.
- Von 0,55 bis etwa 0,85 liegen alle Datenpunkte unterhalb der Kurve.
- Ab 0,85 liegen sie wieder alle über der Kurve.
Ich würde diese Verhaltensweisen als lokale Verzerrung bezeichnen . Es gibt Regionen, in denen die Kurve den bedingten Mittelwert der Daten nicht gut annähert.
Vergleichen Sie dies mit der letzten Passung mit dem kubischen Spline. Ich kann keine Bereiche mit dem Auge erkennen, in denen die Anpassung nicht so aussieht, als würde sie genau durch den Massenmittelpunkt der Datenpunkte verlaufen. Dies ist im Allgemeinen (wenn auch ungenau) das, was ich unter einer guten Passform verstehe.
2
- Ihr Verhalten an den Grenzen Ihrer Daten kann selbst bei Regularisierung sehr chaotisch sein.
- Sie sind in keiner Weise lokal . Das Ändern Ihrer Daten an einem Ort kann sich erheblich auf die Anpassung an einen anderen Ort auswirken.
Ich empfehle stattdessen in einer Situation wie Sie sie beschreiben, natürliche kubische Splines zusammen mit Regularisierung zu verwenden, die den besten Kompromiss zwischen Flexibilität und Stabilität bieten . Sie können sich selbst davon überzeugen, indem Sie einige Splines in die App einfügen.
(*) Ich glaube, dass dies nur in Chrome und Firefox funktioniert, da ich einige moderne Javascript-Funktionen verwende (und insgesamt faul bin, dies in Safari und anderen Fällen zu beheben). Der Quellcode ist hier , wenn Sie interessiert sind.
Nein, es ist nicht dasselbe. Vergleichen Sie beispielsweise ein Polynom zweiter Ordnung ohne Regularisierung mit einem Polynom vierter Ordnung. Letzterer kann große Koeffizienten für die dritte und vierte Potenz setzen, solange dies die Vorhersagegenauigkeit zu erhöhen scheint, je nachdem, welches Verfahren zur Auswahl der Strafgröße für das Regularisierungsverfahren verwendet wird (wahrscheinlich Kreuzvalidierung). Dies zeigt, dass einer der Vorteile der Regularisierung darin besteht, dass Sie die Komplexität des Modells automatisch anpassen können, um ein Gleichgewicht zwischen Über- und Unteranpassung herzustellen.
quelle
Bei Polynomen können bereits kleine Änderungen der Koeffizienten für die höheren Exponenten einen Unterschied ausmachen.
quelle
Alle Antworten sind großartig und ich habe ähnliche Simulationen mit Matt, um Ihnen ein weiteres Beispiel zu zeigen, warum ein komplexes Modell mit Regularisierung normalerweise besser ist als ein einfaches Modell .
Ich habe eine Analogie gemacht, um eine intuitive Erklärung zu haben.
Wenn zwei Personen das gleiche Problem lösen, arbeiten in der Regel die Doktoranden besser an der Lösung, da die Erfahrung und die Einsichten über das Wissen.
In Abbildung 1 sind 4 Anschlüsse zu denselben Daten dargestellt. 4 Beschläge sind Schnur, Parabel, Modell 3. Ordnung und Modell 5. Ordnung. Sie können beobachten, dass das Modell 5. Ordnung möglicherweise ein Überpassungsproblem aufweist.
Andererseits werden wir im zweiten Experiment ein Modell 5. Ordnung mit unterschiedlichem Regularisierungsgrad verwenden. Vergleichen Sie das letzte mit dem Modell zweiter Ordnung. (zwei Modelle sind hervorgehoben) Sie werden feststellen, dass das letzte Modell der Parabel ähnlich ist (ungefähr die gleiche Modellkomplexität aufweist), jedoch etwas flexibler für die Datenquelle ist.
quelle