Ich lese die Bücher über lineare Regression. Es gibt einige Sätze zur L1- und L2-Norm. Ich kenne sie, verstehe nur nicht, warum L1-Norm für spärliche Modelle. Kann jemand eine einfache Erklärung
Einbeziehung zusätzlicher Einschränkungen (normalerweise eine Strafe für die Komplexität) in den Modellanpassungsprozess. Wird verwendet, um eine Überanpassung zu verhindern / die Vorhersagegenauigkeit zu verbessern.
Ich lese die Bücher über lineare Regression. Es gibt einige Sätze zur L1- und L2-Norm. Ich kenne sie, verstehe nur nicht, warum L1-Norm für spärliche Modelle. Kann jemand eine einfache Erklärung
Ich suche eine nicht-technische Definition des Lassos und wofür es verwendet
Ich habe Elemente des statistischen Lernens gelesen und möchte wissen, warum das Lasso eine variable Auswahl bietet und die Gratregression nicht. Beide Methoden minimieren die verbleibende Quadratsumme und beschränken die möglichen Werte der Parameter . Für das Lasso ist die Bedingung , während sie...
Im Gegensatz zu anderen Artikeln fand ich den Wikipedia- Eintrag für dieses Thema für einen Nicht-Mathematiker (wie mich) nicht lesbar. Ich habe die Grundidee verstanden, dass Sie Modelle mit weniger Regeln bevorzugen. Was ich nicht verstehe, ist, wie man von einem Regelwerk zu einem...
Ich lese dies weiter und ich kann es intuitiv sehen, aber wie geht man von der L2-Regularisierung zu der Aussage, dass dies analytisch ein Gaußscher Prior ist? Gleiches gilt für die Aussage, dass L1 einem Laplace-Prior entspricht. Weitere Hinweise wären toll.
Um Probleme bei der Modellauswahl zu lösen, werden durch eine Reihe von Methoden (LASSO, Ridge-Regression usw.) die Koeffizienten der Prädiktorvariablen gegen Null gesenkt. Ich suche nach einer intuitiven Erklärung, warum dies die Vorhersagefähigkeit verbessert. Wenn der wahre Effekt der Variablen...
Wann immer Regularisierung verwendet wird, wird sie häufig zur Kostenfunktion hinzugefügt, wie in der folgenden Kostenfunktion. Dies ist für mich intuitiv sinnvoll, da das minimiert wird Kostenfunktion bedeutet, den Fehler (den linken Term) zu minimieren und die Größen der Koeffizienten (den...
In der traditionellen Statistik wird beim Erstellen eines Modells die Multikollinearität mithilfe von Methoden wie Schätzungen des Varianzinflationsfaktors (VIF) überprüft. Beim maschinellen Lernen wird jedoch stattdessen die Regularisierung für die Featureauswahl verwendet, und es scheint nicht zu...
Regularisierung mit Methoden wie Ridge, Lasso und ElasticNet ist für die lineare Regression weit verbreitet. Ich wollte Folgendes wissen: Sind diese Methoden für die logistische Regression anwendbar? Wenn ja, gibt es Unterschiede in der Art und Weise, wie sie für die logistische Regression...
Das Momentum wird verwendet, um die Schwankungen der Gewichtsänderungen während aufeinanderfolgender Iterationen zu verringern:αα\alpha wobeiE(w)ist die Fehlerfunktionw- der Vektor der Gewichte,η- Lernrate.Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial...
Ich habe einige Probleme mit der Herleitung der Lösung für die Gratregression. Ich kenne die Regressionslösung ohne den Regularisierungsbegriff: β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. λ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda...
Gibt es empirische Studien, die die Anwendung der einen Standardfehlerregel zugunsten von Sparsamkeit rechtfertigen? Es hängt natürlich vom Datenerzeugungsprozess der Daten ab, aber alles, was einen großen Datenbestand analysiert, wäre eine sehr interessante Lektüre. Die
Ein Problem, das ich im Zusammenhang mit neuronalen Netzen im Allgemeinen und Deep Neural Networks im Besonderen häufig gesehen habe, ist, dass sie "datenhungrig" sind - das heißt, dass sie nur dann eine gute Leistung erbringen, wenn wir einen großen Datenbestand haben mit dem man das netzwerk...
Auf Seite 223 in Eine Einführung in das statistische Lernen fassen die Autoren die Unterschiede zwischen Gratregression und Lasso zusammen. Sie liefern ein Beispiel (Abbildung 6.9) für den Fall, dass "Lasso dazu neigt, die Gratregression in Bezug auf Bias, Varianz und MSE zu übertreffen". Ich...
Ich bin nur neugierig, warum es normalerweise nur und Regularisierungen gibt. Gibt es Beweise, warum diese besser
Ich versuche, ein multivariates lineares Regressionsmodell mit ungefähr 60 Prädiktorvariablen und 30 Beobachtungen anzupassen , daher verwende ich das glmnet- Paket für die regulierte Regression, da p> n. Ich habe Dokumentationen und andere Fragen durchgearbeitet, kann die Ergebnisse aber immer...
Wird die elastische Netz-Regularisierung immer Lasso & Ridge vorgezogen, da sie die Nachteile dieser Methoden zu beseitigen scheint? Was ist die Intuition und was ist die Mathematik hinter dem elastischen
Ich bin ein Software-Ingenieur, der maschinelles Lernen lernt, insbesondere durch die maschinellen Lernkurse von Andrew Ng . Beim Studium der linearen Regression mit Regularisierung habe ich Begriffe gefunden, die verwirrend sind: Regression mit L1-Regularisierung oder L2-Regularisierung LASSO...
Wie vergleichen sich Ridge-, LASSO- und Elasticnet-Regularisierungsmethoden? Was sind ihre jeweiligen Vor- und Nachteile? Gute technische Artikel oder Vorlesungsunterlagen sind ebenfalls willkommen.
Kann jemand eine gute Darstellung der Theorie der partiellen Regression der kleinsten Quadrate (online verfügbar) für jemanden empfehlen, der SVD und PCA versteht? Ich habe online in vielen Quellen nachgesehen und nichts gefunden, das die richtige Kombination aus Strenge und Zugänglichkeit bietet....