Ich bin neu bei ML. Ich wurde informiert, dass die L2-Normalisierung der Gratregression den Achsenabschnitt nicht bestraft . Wie in der Kostenfunktion: Der L2-Normalisierungsterm summiert sich nur von bis , nicht von bis . Ich habe das auch gelesen:
In den meisten Fällen (in allen Fällen?) ist es besser, nicht zu regulieren , da es unwahrscheinlich ist, dass die Überanpassung verringert und der Raum für darstellbare Funktionen verkleinert wird
Dies ergibt sich aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?
Ich bin verwirrt darüber, wie die Ableitung der Kostenfunktion zu lösen ist, da: wobei , und .Θ
Θθθ und sind unterschiedlich. Daher können sie aus meiner Sicht nicht gemischt werden. Und die Ableitung handelt von das . Nachdem ich gegoogelt und die Fragen in diesem Forum angesehen habe, kann ich immer noch keine Lösung finden: Kann mir jemand einen Hinweis geben? Vielen Dank im Voraus für Ihre Hilfe! Θ=(XTX+λ∗I) - 1 XTY.
Ich denke jedoch, dass es zwei schnelle Lösungen für dieses Problem gibt:
Zunächst fügen wir nicht die Spalte all 1 zu . Nämlich . Das heißt, wir nehmen den Achsenabschnitt überhaupt nicht in das Modell auf: Ich glaube, diese Methode wurde in das klassische Buch Maschinelles Lernen in Aktion von Peter Harrington übernommen, das ich gerade lese. Bei der Implementierung der Ridge-Regression (P166 und P177, wenn Sie auch das Buch haben) enthält das gesamte an die Ridge-Regression übergebene nicht die Spalte all 1.X = [ X ( 1 ) 1 X ( 1 ) 2 . . y= θ 1 X 1 + θ 2 X 2 +. . . + θ n X n . X.
Zweitens wird der Abschnitt auch in der Realität bestraft.
Die logistische Regression von scikit reguliert standardmäßig den Achsenabschnitt.
Dies kommt wiederum aus der letzten Antwort von user48956 von Warum ist ein lineares Regressionsmodell mit null Abschnitten besser vorhersagbar als ein Modell mit einem Abschnitt?
Beide Schnellkorrekturen führen zur Lösung
Kann also die Ableitung der L2-Normalisierung der Gratregression tatsächlich gelöst werden oder wird sie nur durch schnelle Korrekturen gelöst?
Antworten:
Die Elemente des statistischen Lernens von Hastie et al. weist in P63 darauf hin, dass:
Außerdem heißt es:
Obwohl ich mich frage, warum die Elemente des statistischen Lernens zuerst eine Standardisierung von Merkmalen vorschlagen und dann nur eine Merkmalszentrierung durchgeführt wird. Vielleicht, um mit Übung 3.5 übereinzustimmen, in der nur Feature-Centering verwendet wird.
Wie auch immer, ich glaube, es ist richtig, die Z-Score-Standardisierung auf Features anzuwenden. Deshalb versuche ich nun, die Ableitung der Kostenfunktion der Gratregression auf Vorschlag des obigen Kommentators Amöbe zu lösen. Vielen Dank an ihn oder sie!
Zunächst die Kostenfunktion: wobei der Mittelwert des Attributs und die Standardabweichung von . Um es kürzer zu machen: Nun berechnen wir zuerst den Wert von
Der Achsenabschnitt der merkmalsstandardisierten Gratregression ist also immer . Wenn wir also zuerst zentralisieren, indem wir seinen Mittelwert subtrahieren (get für Datenbeispiel ), schließen Sie nicht alle 1 Spalten in und führen Sie dann eine Feature-Standardisierung für (get für des Datenbeispiels ) die Kostenfunktion einfach Das heißty¯¯¯ Y (yi)′ i X X (X(i)j)′ Xj i
quelle