Es ist sicherlich möglich, gute Modelle anzupassen, wenn mehr Variablen als Datenpunkte vorhanden sind, dies muss jedoch mit Vorsicht erfolgen.
Wenn mehr Variablen als Datenpunkte vorhanden sind, hat das Problem möglicherweise keine eindeutige Lösung, es sei denn, es ist weiter eingeschränkt. Das heißt, es kann mehrere (möglicherweise unendlich viele) Lösungen geben, die gleich gut zu den Daten passen. Ein solches Problem wird als "schlecht gestellt" oder "unterbestimmt" bezeichnet. Wenn beispielsweise mehr Variablen als Datenpunkte vorhanden sind, hat die Standardregression der kleinsten Quadrate unendlich viele Lösungen, die einen Fehler von Null in den Trainingsdaten erzielen.
Ein solches Modell würde sicherlich überpassen, weil es für die Menge der Trainingsdaten "zu flexibel" ist. Wenn die Modellflexibilität zunimmt (z. B. mehr Variablen in einem Regressionsmodell) und die Menge der Trainingsdaten abnimmt, wird es immer wahrscheinlicher, dass das Modell einen geringen Fehler erzielen kann, indem zufällige Schwankungen in den Trainingsdaten angepasst werden, die nicht die darstellen wahre, zugrunde liegende Verteilung. Die Leistung ist daher schlecht, wenn das Modell mit zukünftigen Daten ausgeführt wird, die aus derselben Verteilung stammen.
Die Probleme der Fehlstellung und der Überanpassung können beide durch Auferlegung von Einschränkungen angegangen werden. Dies kann in Form expliziter Einschränkungen der Parameter, eines Straf- / Regularisierungsterms oder eines Bayes'schen Prior erfolgen. Das Training wird dann zu einem Kompromiss zwischen der guten Anpassung der Daten und der Erfüllung der Einschränkungen. Sie haben zwei Beispiele für diese Strategie für Regressionsprobleme erwähnt: 1) LASSO beschränkt oder bestraft die Norm der Gewichte, was der Auferlegung eines Laplace-Prior entspricht. 2) Die Ridge-Regression schränkt die Norm der Gewichte ein oder bestraft sie , was dem Auferlegen eines Gaußschen Prior entspricht.ℓ 2ℓ1ℓ2
Einschränkungen können zu einer einzigartigen Lösung führen. Dies ist wünschenswert, wenn wir das Modell interpretieren möchten, um etwas über den Prozess zu erfahren, der die Daten generiert hat. Sie können auch eine bessere Vorhersageleistung erzielen, indem sie die Flexibilität des Modells einschränken und dadurch die Tendenz zur Überanpassung verringern.
Das einfache Auferlegen von Einschränkungen oder das Garantieren, dass eine eindeutige Lösung vorhanden ist, bedeutet jedoch nicht, dass die resultierende Lösung gut ist. Einschränkungen führen nur dann zu guten Lösungen, wenn sie tatsächlich für das Problem geeignet sind.
Ein paar verschiedene Punkte:
- Die Existenz mehrerer Lösungen ist nicht unbedingt problematisch. Beispielsweise können neuronale Netze viele mögliche Lösungen haben, die sich voneinander unterscheiden, aber nahezu gleich gut sind.
- Das Vorhandensein von mehr Variablen als Datenpunkten, das Vorhandensein mehrerer Lösungen und die Überanpassung fallen häufig zusammen. Dies sind jedoch unterschiedliche Konzepte. jedes kann ohne das andere auftreten.