Lineare Regression: Wie kann man weniger „empfindliche“ Parameter bevorzugen?

9

Ich habe ein einfaches Regressionsmodell ( y = param1 * x1 + param2 * x2 ). Wenn ich das Modell an meine Daten anpasse, finde ich zwei gute Lösungen:

  • Lösung A, params = (2,7), ist am besten für den Trainingssatz mit RMSE = 2,5 geeignet

  • ABER! Lösung B params = (24,20) gewinnt im Validierungssatz , wenn ich eine Kreuzvalidierung durchführe.

Geben Sie hier die Bildbeschreibung ein Ich vermute, das liegt daran:

  • Lösung A ist von schlechten Lösungen umgeben. Wenn ich also Lösung A verwende, reagiert das Modell empfindlicher auf Datenschwankungen.

  • Lösung B ist von OK-Lösungen umgeben, sodass sie weniger empfindlich auf Änderungen in den Daten reagiert.

Ist dies eine brandneue Theorie, die ich gerade erfunden habe, dass Lösungen mit guten Nachbarn weniger überpassend sind? :))

Gibt es generische Optimierungsmethoden, die mir helfen würden, Lösung B gegenüber Lösung A zu bevorzugen?

HILFE!

elemolotiv
quelle
2
Ihr Bild ist Trainingssatzfehler? Können Sie dasselbe Bild für einen Kreuzvalidierungsfehler erstellen? Daumen hoch für eine coole Handlung.
Zach
1
Könnten Sie auch die Daten teilen? Dies ist ein interessantes Problem.
Zach
1
Welche Art von Lebenslauf haben Sie verwendet?
Laksan Nathan
1
Gibt es einen Abschnitt in Ihrem Modell?
EdM
1
Rein statistisch gesehen gibt es eine Teilmenge mit einem beliebigen Wert der Steigung , wenn ich einen ausreichend großen Datensatz habe, der gemäß einem linearen Modell verteilt ist, und kleine Teilmengen des Datensatzes betrachte . Sie müssten also gegen die Nullhypothese testen, dass dies einfach zufällig entsteht. Wenn Sie einen zusätzlichen Grund zu der Annahme haben, dass der Validierungssatz zuverlässiger als der Trainingssatz ist, können Sie die Wichtigkeit des Validierungssatzes gegenüber dem Trainingssatz mithilfe der gewichteten Regression der kleinsten Quadrate anpassen.
Dave Kielpinski

Antworten:

2

Die einzige Möglichkeit, eine rmse mit zwei lokalen Minima zu erhalten, besteht darin, dass die Residuen von Modell und Daten nichtlinear sind. Da eines davon, das Modell, linear ist (in 2D), muss das andere, dh die Daten, entweder hinsichtlich der zugrunde liegenden Tendenz der Daten oder der Rauschfunktion dieser Daten oder beider nichtlinear sein.y

Daher wäre ein besseres Modell, ein nichtlineares, der Ausgangspunkt für die Untersuchung der Daten. Darüber hinaus kann man, ohne etwas mehr über die Daten zu wissen, nicht mit Sicherheit sagen, welche Regressionsmethode verwendet werden sollte. Ich kann anbieten, dass die Tikhonov-Regularisierung oder die damit verbundene Gratregression ein guter Weg wäre, um die OP-Frage zu beantworten. Welcher Glättungsfaktor verwendet werden sollte, hängt jedoch davon ab, was man durch Modellierung erhalten möchte. Die Annahme hier scheint zu sein, dass die kleinste rmse das beste Modell ergibt, da wir kein Regressionsziel haben (außer OLS, der Standardmethode "Gehe zu", die am häufigsten verwendet wird, wenn ein physikalisch definiertes Regressionsziel nicht einmal konzeptualisiert ist). .

Was ist der Zweck dieser Regression, bitte? Ohne diesen Zweck zu definieren, gibt es kein Regressionsziel oder -ziel und wir finden nur eine Regression für kosmetische Zwecke.

Carl
quelle