Regularisierung in der Regression (linear, logistisch ...) ist die beliebteste Methode, um Überanpassung zu reduzieren.
Gibt es gute Alternativen zur Regularisierung, insbesondere für große Datenmengen (Millionen von Beobachtungen und Millionen von Merkmalen), wenn das Ziel Vorhersagegenauigkeit ist (keine Erklärung)?
regression
regularization
overfitting
Benoit Sanchez
quelle
quelle
Antworten:
Zwei wichtige Punkte, die nicht direkt mit Ihrer Frage zusammenhängen:
Erstens ist auch das Ziel Genauigkeit statt Interpretation. In vielen Fällen ist dennoch eine Regularisierung erforderlich, da hierdurch die "hohe Genauigkeit" des realen Test- / Produktionsdatensatzes sichergestellt wird und nicht die Daten, die für die Modellierung verwendet werden.
Zweitens ist bei Milliarden Zeilen und Millionen Spalten möglicherweise keine Regularisierung erforderlich. Dies liegt daran, dass die Daten sehr umfangreich sind und viele Rechenmodelle nur über eine begrenzte Leistung verfügen, dh dass eine Überanpassung nahezu unmöglich ist. Aus diesem Grund hat ein tiefes neuronales Netzwerk Milliarden von Parametern.
Nun zu Ihrer Frage. Wie von Ben und Andrey erwähnt, gibt es einige Alternativen zur Regularisierung. Ich möchte weitere Beispiele hinzufügen.
Verwenden Sie ein einfacheres Modell (Reduzieren Sie beispielsweise die Anzahl der verborgenen Einheiten im neuronalen Netzwerk. Verwenden Sie in SVM einen Polynomkern niedrigerer Ordnung. Reduzieren Sie die Anzahl der Gaußschen in einer Mischung aus Gaußschen usw.).
Stoppen Sie früh in der Optimierung. (Reduzieren Sie beispielsweise die Epoche beim Training des neuronalen Netzwerks und die Anzahl der Iterationen bei der Optimierung (CG, BFGS usw.).
Durchschnitt für viele Modelle (z. B. zufällige Gesamtstruktur usw.)
quelle
Zwei Alternativen zur Regularisierung:
Geoff Hinton (Miterfinder von Back Propogation) erzählte einmal eine Geschichte von Ingenieuren, in der er (stark umschrieben) sagte: "Geoff, wir brauchen keine Aussetzer in unseren tiefen Netzen, weil wir so viele Daten haben." Und seine Antwort war : „Nun, dann sollten Sie noch tiefe Netze bauen, bis Sie sind Überanpassung, und verwenden Sie dann Aussetzer.“ Abgesehen von guten Ratschlägen können Sie die Regularisierung anscheinend auch bei tiefen Netzen vermeiden, solange genügend Daten vorhanden sind.
Bei einer festgelegten Anzahl von Beobachtungen können Sie sich auch für ein einfacheres Modell entscheiden. Wahrscheinlich benötigen Sie keine Regularisierung, um einen Achsenabschnitt, eine Steigung und eine Fehlervarianz in einer einfachen linearen Regression abzuschätzen.
quelle
Einige zusätzliche Möglichkeiten, um eine Überanpassung zu vermeiden
Dimensionsreduzierung
Merkmalsauswahl (auch Dimensionsreduzierung)
Sie können eine Runde der Merkmalsauswahl durchführen (z. B. mit LASSO), um einen kleiner dimensionierten Merkmalsraum zu erhalten. So etwas wie die Merkmalsauswahl mit LASSO kann nützlich sein, wenn einige große, aber unbekannte Teilmengen von Merkmalen irrelevant sind.
Verwenden Sie Algorithmen, die weniger anfällig für Überanpassungen sind, z. B. zufällige Gesamtstrukturen. (Abhängig von den Einstellungen, der Anzahl der Features usw. sind diese möglicherweise rechenintensiver als gewöhnliche kleinste Quadrate.)
Einige der anderen Antworten haben auch die Vorteile von Boosting- und Bagging-Techniken / -Algorithmen erwähnt.
Bayesianische Methoden
Hinzufügen eines Priores zum Koeffizientenvektor und Reduzieren der Überanpassung. Dies hängt konzeptionell mit der Regularisierung zusammen: z. Die Kammregression ist ein Sonderfall der Maximum-a-posteriori-Schätzung.
quelle
Wenn Sie ein Modell mit einem Löser verwenden, in dem Sie die Anzahl der Iterationen / Epochen definieren können, können Sie Validierungsfehler nachverfolgen und frühzeitig stoppen: Stoppen Sie den Algorithmus, wenn der Validierungsfehler zuzunehmen beginnt.
quelle
Zwei Gedanken:
Ich unterstütze die von Ben Ogorek vorgeschlagene Strategie, ein einfacheres Modell zu verwenden .
Ich arbeite an sehr spärlichen linearen Klassifikationsmodellen mit kleinen ganzzahligen Koeffizienten (z. B. max. 5 Variablen mit ganzzahligen Koeffizienten zwischen -5 und 5). Die Modelle sind in Bezug auf Genauigkeit und schwierigere Leistungsmetriken (z. B. Kalibrierung) gut verallgemeinerbar.
Wenn Sie zusätzliche Bedingungen für Ihr Modell angeben können (z. B. Monotoniebedingungen, Nebeninformationen), kann dies auch zur Verallgemeinerung beitragen, indem der Hypothesenraum reduziert wird (siehe z . B. dieses Dokument ).
Dies muss mit Sorgfalt geschehen (z. B. möchten Sie Ihr Modell wahrscheinlich ohne Einschränkungen mit einer Grundlinie vergleichen und Ihren Trainingsprozess so gestalten, dass sichergestellt ist, dass Sie keine Einschränkungen in Bezug auf die Auswahl von Kirschen haben).
quelle