Gitterfeinheit und Überanpassung beim Einstellen von

8

ich wundere mich über

  • die optimale Gitterfeinheit und
  • Wie ist das Verhältnis zwischen Gitterfeinheit und Überanpassung?

bei Regularisierungsmethoden wie LASSO, Ridge Regression oder Elastic Net.

Angenommen, ich möchte ein Regressionsmodell mit LASSO an eine Stichprobe von 500 Beobachtungen anpassen (ich habe keine Daten; dies ist nur ein Beispiel). Es sei auch angenommen , dass ich
(A) ein Gitter mit 100 verschiedenen - Werte im Bereich zwischen λ m i n und λ m eine x (B) ein Raster mit 1000 verschiedenen λ - Werte im gleichen Bereich, wo λ ist der Parameter der kontrollierende Grad der Bestrafung.λλminλmax
λ
λ

Fragen:

  1. Kann ich etwas über die Neigung zur Überanpassung in (A) gegenüber (B) sagen ?
  2. Kann ich die optimale Gitterfeinheit bestimmen? Wie?
Richard Hardy
quelle

Antworten:

7

Kann ich etwas über die Neigung zur Überanpassung in (A) gegenüber (B) sagen?

Vorausgesetzt, beide Gitter decken einen ausreichenden Bereich ab, hat die Gitterfeinheit nichts mit Überanpassung bei diesem Problem zu tun (obwohl ein grobes Gitter möglicherweise unterpasst, wenn es ein profitables Intervall überspringt). Es ist nicht so, als würde das Testen zu vieler Werte irgendwie das Aussehen außerhalb der Stichprobe ändern. * Im Fall dieser bestraften Regressionen möchten wir definitiv unsere bestrafte Wahrscheinlichkeitsfunktion für Werte optimieren , und es spielt keine Rolle, wie viele Wir testen die Werte von λ , da die Leistung außerhalb der Stichprobe für einen festen Datensatz und eine feste Partitionierung vollständig deterministisch ist. Genauer gesagt wird die Metrik außerhalb der Stichprobe überhaupt nicht durch die Anzahl der Werte λ geändertλλλSie testen. Ein gröberes Raster kann bedeuten, dass Sie das absolute Minimum in Ihrer Metrik außerhalb der Stichprobe überspringen. Das Ermitteln des absoluten Minimums ist jedoch wahrscheinlich zunächst nicht wünschenswert, da Hyperparameter in der Regel schlecht geschätzt werden und die Eigenschaften endlicher Stichproben diese Daten bedeuten Einschränkungen sind ein Quellenrauschen in dieser Schätzung, das geringfügige Änderungen des Abstands zwischen benachbarten Gitterpunkten überwältigt: Der Standardfehler Ihrer Schätzung überschwemmt tendenziell Unterschiede in der Gitterfeinheit.

Wenn Sie wirklich befürchten, dass die Leistungsmetrik außerhalb der Stichprobe zu optimistisch ist, können Sie die Regel 1 Standardfehler anwenden, mit der das am stärksten regulierte Modell innerhalb von 1 Standardfehler des Minimums ausgewählt wird. Auf diese Weise sind Sie etwas konservativer und wählen ein weniger komplexes Modell.

Kann ich die optimale Gitterfeinheit bestimmen? Wie?

λλλλWenn ein neuer Koeffizient ungleich Null ist, wird beibehalten, wobei zu beachten ist, dass die Koeffizientenpfade im Fall des Lassos stückweise linear sind, sodass in diesem Fall kein Informationsverlust entsteht, wenn nur die Knoten gespeichert werden. LARS funktioniert jedoch nur, wenn die Koeffizientenpfade stückweise linear sind. Die Gratstrafe verringert niemals einen Koeffizienten auf genau Null, sodass alle Koeffizientenpfade glatt und immer ungleich Null sind. Ebenso elastische Netzregressionen (ausgenommen elastische Netzregressionen, die auch Lasso-Regressionen sind).

λλmaxβλminλmax. Schließlich erzeugen sie eine Folge von Werten zwischen den beiden gleichmäßig auf der Protokollskala. Dieses Raster ist für die meisten Zwecke ausreichend, lässt jedoch die Eigenschaft aus, dass Sie genau wissen, wann ein Koeffizient auf einen Wert ungleich Null geschätzt wird. Warmstarts werden verwendet, um Lösungen viel schneller bereitzustellen, und es werden viele gängige GLMs unterstützt.


* Sie könnten dies aus der Perspektive eines künstlichen neuronalen Netzwerks betrachten, in dem manchmal ein frühes Anhalten verwendet wird, um eine Regularisierung zu erreichen, aber das ist ein völlig unabhängiges Problem (nämlich, dass der Optimierungsalgorithmus daran gehindert wird, ein Optimum zu erreichen, so ist das Modell gezwungen, weniger komplex zu sein).

Sycorax sagt Reinstate Monica
quelle
2
Ich glaube nicht, dass Sie in der Beschreibung, wie glmnet den Lambdas-Benutzer777 auswählt, ganz richtig liegen. Lesen Sie Abschnitt 2.5 in diesem Artikel, in dem die Wahl des minimalen und maximalen Lambda sowie der dazwischen liegenden Lambda-Werte erörtert wird. Sie denken vielleicht an LARS, das tatsächlich das tut, was Sie beschreiben, aber ich glaube nicht, dass es verallgemeinert wurde, eine Gratstrafe einzuschließen.
Matthew Drury
@ MatthewDrury Bah. Du hast recht. Ich dachte an LARS.
Sycorax sagt Reinstate Monica
Ich habe verwandtes Material und vielleicht auch dieses Papier gelesen, aber das Folgende hat mich nicht ganz überzeugt: Schließlich erzeugen sie eine Folge von Werten zwischen den beiden einheitlich auf der logarithmischen Skala. Gibt es eine Rechtfertigung dafür, dass dies eine optimale Wahl ist? Wie wählen sie auch die Feinheit des Gitters? Ich erinnere mich nicht, eine gute Erklärung gelesen zu haben.
Richard Hardy
1
Ich habe bei allen meinen Verwendungen von glmnet festgestellt, dass die Änderung der Log-Wahrscheinlichkeit zwischen aufeinanderfolgenden Gitterpunkten immer vom geschätzten Standardfehler dieser Schätzungen dominiert wird. Das Standardraster ist also fein genug, dass alle Informationen, die aus einer erhöhten Auflösung erhalten werden, von Unsicherheiten in der Lambda-Schätzung dominiert werden.
Matthew Drury
1
λλ