Modellierung mit mehr Variablen als Datenpunkten

10

Ich bin ziemlich neu im Bereich maschinelles Lernen / Modellieren und möchte Hintergrundinformationen zu diesem Problem. Ich habe einen Datensatz, in dem die Anzahl der Beobachtungen die Anzahl der Variablen jedoch . Erstens ist es überhaupt sinnvoll, ein Modell auf einem solchen Datensatz aufzubauen, oder sollte man zunächst eine variable Auswahlmethode wie Ridge Regression oder Lasso in Betracht ziehen? Ich habe gelesen, dass diese Situation zu einer Überanpassung führen kann. Ist das bei allen ML-Techniken der Fall oder handhaben einige Techniken dies besser als andere? Ohne zu viel Mathematik wäre eine einfache Erklärung, warum die Mathematik für , wünschenswert. $n<200$ $p\sim 8000$ $p>n$

regression machine-learning dimensionality-reduction penalized PaulB.
quelle

14

Es ist sicherlich möglich, gute Modelle anzupassen, wenn mehr Variablen als Datenpunkte vorhanden sind, dies muss jedoch mit Vorsicht erfolgen.

Wenn mehr Variablen als Datenpunkte vorhanden sind, hat das Problem möglicherweise keine eindeutige Lösung, es sei denn, es ist weiter eingeschränkt. Das heißt, es kann mehrere (möglicherweise unendlich viele) Lösungen geben, die gleich gut zu den Daten passen. Ein solches Problem wird als "schlecht gestellt" oder "unterbestimmt" bezeichnet. Wenn beispielsweise mehr Variablen als Datenpunkte vorhanden sind, hat die Standardregression der kleinsten Quadrate unendlich viele Lösungen, die einen Fehler von Null in den Trainingsdaten erzielen.

Ein solches Modell würde sicherlich überpassen, weil es für die Menge der Trainingsdaten "zu flexibel" ist. Wenn die Modellflexibilität zunimmt (z. B. mehr Variablen in einem Regressionsmodell) und die Menge der Trainingsdaten abnimmt, wird es immer wahrscheinlicher, dass das Modell einen geringen Fehler erzielen kann, indem zufällige Schwankungen in den Trainingsdaten angepasst werden, die nicht die darstellen wahre, zugrunde liegende Verteilung. Die Leistung ist daher schlecht, wenn das Modell mit zukünftigen Daten ausgeführt wird, die aus derselben Verteilung stammen.

Die Probleme der Fehlstellung und der Überanpassung können beide durch Auferlegung von Einschränkungen angegangen werden. Dies kann in Form expliziter Einschränkungen der Parameter, eines Straf- / Regularisierungsterms oder eines Bayes'schen Prior erfolgen. Das Training wird dann zu einem Kompromiss zwischen der guten Anpassung der Daten und der Erfüllung der Einschränkungen. Sie haben zwei Beispiele für diese Strategie für Regressionsprobleme erwähnt: 1) LASSO beschränkt oder bestraft die Norm der Gewichte, was der Auferlegung eines Laplace-Prior entspricht. 2) Die Ridge-Regression schränkt die Norm der Gewichte ein oder bestraft sie , was dem Auferlegen eines Gaußschen Prior entspricht. $\ell_1$ $\ell_2$

Einschränkungen können zu einer einzigartigen Lösung führen. Dies ist wünschenswert, wenn wir das Modell interpretieren möchten, um etwas über den Prozess zu erfahren, der die Daten generiert hat. Sie können auch eine bessere Vorhersageleistung erzielen, indem sie die Flexibilität des Modells einschränken und dadurch die Tendenz zur Überanpassung verringern.

Das einfache Auferlegen von Einschränkungen oder das Garantieren, dass eine eindeutige Lösung vorhanden ist, bedeutet jedoch nicht, dass die resultierende Lösung gut ist. Einschränkungen führen nur dann zu guten Lösungen, wenn sie tatsächlich für das Problem geeignet sind.

Ein paar verschiedene Punkte:

Die Existenz mehrerer Lösungen ist nicht unbedingt problematisch. Beispielsweise können neuronale Netze viele mögliche Lösungen haben, die sich voneinander unterscheiden, aber nahezu gleich gut sind.
Das Vorhandensein von mehr Variablen als Datenpunkten, das Vorhandensein mehrerer Lösungen und die Überanpassung fallen häufig zusammen. Dies sind jedoch unterschiedliche Konzepte. jedes kann ohne das andere auftreten.

user20160
quelle

3

$3$ $3=7-3-1$ $3=1234-23451+22220$

$(3, 0, 0)$ $(2, 1, 0)$

Dies ist, wofür bestrafte Regression (wie Lasso oder Ridge) gedacht ist: Finden Sie eine überschaubare Untergruppe von "einfacheren" Lösungen, die möglicherweise bis zu einem gewissen Grad natürlicher sind. Sie verwenden das Gesetz der Sparsamkeit oder Ockhams Rasiermesser . Wenn zwei Modelle die Beobachtung mit gleicher Genauigkeit erklären, kann es am klügsten sein, die kompaktere zu wählen, beispielsweise in Bezug auf die Anzahl der freien Parameter. Man "erklärt" die nützliche Beziehung zwischen Variablen mit zu involvierten Modellen nicht wirklich.

Ein Zitat von John von Neumann veranschaulicht diesen Kontext:

Mit vier Parametern kann ich einen Elefanten passen, und mit fünf kann ich ihn dazu bringen, seinen Rüssel zu wackeln.

Laurent Duval
quelle

Modellierung mit mehr Variablen als Datenpunkten

Antworten: