Ich suche eine nicht-technische Definition des Lassos und wofür es verwendet
Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Ich suche eine nicht-technische Definition des Lassos und wofür es verwendet
Betrachten Sie die folgenden drei Phänomene. Steins Paradoxon: Angesichts einiger Daten aus der multivariaten Normalverteilung in ist der Stichprobenmittelwert kein sehr guter Schätzer für den wahren Mittelwert. Man kann eine Schätzung mit kleinerem mittleren Fehlerquadrat erhalten, wenn man alle...
Die Weihnachtszeit hat mir die Möglichkeit gegeben, mich mit den Elementen des statistischen Lernens am Feuer zu entspannen . Aus ökonometrischer Sicht (häufig) habe ich Probleme, die Verwendung von Schrumpfungsmethoden wie Ridge Regression, Lasso und Least Angle Regression (LAR) zu verstehen....
Ich verstehe, dass die Grat-Regressionsschätzung das , das die Restsumme des Quadrats und eine Strafe für die Größe von β minimiertββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y =...
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen...
Was ist die genaue Formel, die in R lm() für das angepasste R-Quadrat verwendet wird? Wie kann ich das interpretieren? Angepasste R-Quadrat-Formeln Es scheinen verschiedene Formeln zur Berechnung des bereinigten R-Quadrats zu existieren. Wherry-Formel:
Ich habe vor etwas wie LassoRegression drei Hauptgründe für die Standardisierung von Variablen gelesen : 1) Interpretierbarkeit von Koeffizienten. 2) Fähigkeit, die Wichtigkeit des Koeffizienten nach der relativen Größe der Schätzungen des Nachschrumpfungskoeffizienten zu ordnen. 3) Keine...
Das ursprüngliche elastische Netzpapier Zou & Hastie (2005) Regularisierung und Variablenauswahl über das elastische Netz führten die elastische Nettoverlustfunktion für die lineare Regression ein (hier gehe ich davon aus, dass alle Variablen zentriert und auf die Einheitsvarianz skaliert...
Ich habe einmal eine Methode gehört, das Lasso zweimal zu verwenden (wie ein Doppel-Lasso), bei der Sie Lasso für die ursprüngliche Menge von Variablen ausführen, z. B. S1, eine dünn besetzte Menge mit der Bezeichnung S2 erhalten und dann erneut Lasso für die Menge S2 ausführen, um die Menge S3 zu...
Die LASSO-Regression verringert die Koeffizienten auf Null und bietet so eine effektive Modellauswahl. Ich glaube, dass es in meinen Daten bedeutsame Wechselwirkungen zwischen nominalen und kontinuierlichen Kovariaten gibt. Nicht unbedingt sind jedoch die "Haupteffekte" des wahren Modells...
Für ein lineares Modell ist der Schrumpfterm immer .y=β0+xβ+εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) Was ist der Grund, warum wir den Verzerrungsbegriff nicht verkleinern ? Sollen wir den Bias-Term in den neuronalen Netzwerkmodellen
Präzision ist definiert als: p = true positives / (true positives + false positives) Ist es richtig, dass sich die Genauigkeit 1 nähert true positivesund false positivessich 0 nähert? Gleiche Frage zum Rückruf: r = true positives / (true positives + false negatives) Ich führe derzeit einen...
Ich habe über den James-Stein-Schätzer gelesen. In diesen Anmerkungen wird definiert als θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X Ich habe den Beweis gelesen, verstehe aber die folgende Aussage nicht: Geometrisch schrumpft der James-Stein-Schätzer jede...
Ich habe eine Frage zur Berechnung des James-Stein-Schrumpfungsfaktors in dem 1977 erschienenen Scientific American Paper von Bradley Efron und Carl Morris, "Stein's Paradox in Statistics" . Ich habe die Daten für die Baseballspieler gesammelt und sie sind unten angegeben: Name, avg45, avgSeason...
Die Ridge-Regression schätzt die Parameter in einem linearen Modell \ mathbf y = \ mathbf X \ boldsymbol \ beta nach \ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y, wobei \ lambda ein Regularisierungsparameter...
Wenn wir mit einer Datenmenge , Lasso anwenden und eine Lösung β L erhalten , können wir Lasso erneut auf die Datenmenge ( X S , Y ) anwenden , wobei S die Menge ungleich Null ist Indizes von β L , um eine Lösung zu erhalten , β R L , die so genannte ‚entspannt LASSO‘ Lösung (korrigiert mich wenn...
Ich bin von der Idee der James-Stein-Schrumpfung angetan (dh dass eine nichtlineare Funktion einer einzelnen Beobachtung eines Vektors möglicherweise unabhängiger Normalen ein besserer Schätzer für die Mittelwerte der Zufallsvariablen sein kann, wobei "besser" durch Quadratfehler gemessen wird )....
Gibt es analytische Ergebnisse oder experimentelle Arbeiten zur optimalen Wahl des Koeffizienten für den Strafzeitpunkt ? ℓ1ℓ1\ell_1Mit optimal meine ich einen Parameter, der die Wahrscheinlichkeit der Auswahl des besten Modells maximiert oder den erwarteten Verlust minimiert. Ich frage, weil es...
Auf dieser Website gibt es bereits einen Beitrag, der sich mit demselben Thema befasst: Warum funktioniert das Schrumpfen? Aber obwohl die Antworten beliebt sind, glaube ich nicht, dass der Kern der Frage wirklich angesprochen wird. Es ist ziemlich klar, dass die Einführung einer gewissen...
Das Wort Schrumpfung wird in bestimmten Kreisen häufig verwendet. Aber was Schrumpfung ist, scheint es keine klare Definition zu geben. Wenn ich eine Zeitreihe (oder eine Sammlung von Beobachtungen eines Prozesses) habe, auf welche Weise kann ich eine Art empirischen Schrumpfens an der Reihe...