Kann ich etwas über die Neigung zur Überanpassung in (A) gegenüber (B) sagen?
Vorausgesetzt, beide Gitter decken einen ausreichenden Bereich ab, hat die Gitterfeinheit nichts mit Überanpassung bei diesem Problem zu tun (obwohl ein grobes Gitter möglicherweise unterpasst, wenn es ein profitables Intervall überspringt). Es ist nicht so, als würde das Testen zu vieler Werte irgendwie das Aussehen außerhalb der Stichprobe ändern. * Im Fall dieser bestraften Regressionen möchten wir definitiv unsere bestrafte Wahrscheinlichkeitsfunktion für Werte optimieren , und es spielt keine Rolle, wie viele Wir testen die Werte von λ , da die Leistung außerhalb der Stichprobe für einen festen Datensatz und eine feste Partitionierung vollständig deterministisch ist. Genauer gesagt wird die Metrik außerhalb der Stichprobe überhaupt nicht durch die Anzahl der Werte λ geändertλλλSie testen. Ein gröberes Raster kann bedeuten, dass Sie das absolute Minimum in Ihrer Metrik außerhalb der Stichprobe überspringen. Das Ermitteln des absoluten Minimums ist jedoch wahrscheinlich zunächst nicht wünschenswert, da Hyperparameter in der Regel schlecht geschätzt werden und die Eigenschaften endlicher Stichproben diese Daten bedeuten Einschränkungen sind ein Quellenrauschen in dieser Schätzung, das geringfügige Änderungen des Abstands zwischen benachbarten Gitterpunkten überwältigt: Der Standardfehler Ihrer Schätzung überschwemmt tendenziell Unterschiede in der Gitterfeinheit.
Wenn Sie wirklich befürchten, dass die Leistungsmetrik außerhalb der Stichprobe zu optimistisch ist, können Sie die Regel 1 Standardfehler anwenden, mit der das am stärksten regulierte Modell innerhalb von 1 Standardfehler des Minimums ausgewählt wird. Auf diese Weise sind Sie etwas konservativer und wählen ein weniger komplexes Modell.
Kann ich die optimale Gitterfeinheit bestimmen? Wie?
λλλλWenn ein neuer Koeffizient ungleich Null ist, wird beibehalten, wobei zu beachten ist, dass die Koeffizientenpfade im Fall des Lassos stückweise linear sind, sodass in diesem Fall kein Informationsverlust entsteht, wenn nur die Knoten gespeichert werden. LARS funktioniert jedoch nur, wenn die Koeffizientenpfade stückweise linear sind. Die Gratstrafe verringert niemals einen Koeffizienten auf genau Null, sodass alle Koeffizientenpfade glatt und immer ungleich Null sind. Ebenso elastische Netzregressionen (ausgenommen elastische Netzregressionen, die auch Lasso-Regressionen sind).
λλmaxβλMindestλmax. Schließlich erzeugen sie eine Folge von Werten zwischen den beiden gleichmäßig auf der Protokollskala. Dieses Raster ist für die meisten Zwecke ausreichend, lässt jedoch die Eigenschaft aus, dass Sie genau wissen, wann ein Koeffizient auf einen Wert ungleich Null geschätzt wird. Warmstarts werden verwendet, um Lösungen viel schneller bereitzustellen, und es werden viele gängige GLMs unterstützt.
* Sie könnten dies aus der Perspektive eines künstlichen neuronalen Netzwerks betrachten, in dem manchmal ein frühes Anhalten verwendet wird, um eine Regularisierung zu erreichen, aber das ist ein völlig unabhängiges Problem (nämlich, dass der Optimierungsalgorithmus daran gehindert wird, ein Optimum zu erreichen, so ist das Modell gezwungen, weniger komplex zu sein).