Ableitung der regulierten linearen Regressionskostenfunktion pro Coursera-Kurs für maschinelles Lernen

12

Ich habe vor ein paar Monaten Andrew Ngs Kurs "Maschinelles Lernen" über Coursera besucht, ohne auf die meisten Mathematik / Ableitungen zu achten und mich stattdessen auf Implementierung und Praktikabilität zu konzentrieren. Seitdem habe ich wieder angefangen, einige der zugrunde liegenden Theorien zu studieren, und einige der Vorlesungen von Prof. Ng erneut besucht. Ich las seinen Vortrag über "Regularisierte lineare Regression" durch und sah, dass er die folgende Kostenfunktion gab:

J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)})^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Dann gibt er den folgenden Gradienten für diese Kostenfunktion an:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} - λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j - \lambda\theta_j]$

Ich bin ein wenig verwirrt darüber, wie er von einem zum anderen kommt. Als ich versuchte, meine eigene Ableitung vorzunehmen, hatte ich folgendes Ergebnis:

\frac{\partial}{\partial θ_{j}} J (θ) = \frac{1}{m} [\sum_{i = 1}^{m} (h_{θ} (x^{(i)}) + y^{(i)}) x_{j}^{(i)} + λ θ_{j}]

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) + y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Der Unterschied ist das Pluszeichen zwischen der ursprünglichen Kostenfunktion und dem Regularisierungsparameter in der Formel von Prof. Ng, der sich in seiner Gradientenfunktion in ein Minuszeichen ändert, während dies in meinem Ergebnis nicht der Fall ist.

Intuitiv verstehe ich, warum es negativ ist: Wir reduzieren den Theta-Parameter um die Gradientenzahl, und wir möchten, dass der Regularisierungsparameter den Betrag reduziert, um den wir den Parameter ändern, um eine Überanpassung zu vermeiden. Ich bin nur ein wenig auf den Kalkül fixiert, der diese Intuition stützt.

Zu Ihrer Information, Sie finden das Deck hier auf den Folien 15 und 16.

regression self-study Wellington
quelle

1

In Ihrem Ergebnis steht ein " + " vor y ^ (i) - ist das ein Tippfehler?

Steve S

12

$J(\theta) = \frac{1}{2m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})^2 + \lambda\sum_{j=1}^n\theta^2_j]$

Jetzt

$\frac{\partial}{\partial \theta_j}(h_\theta (x^{(i)}) - y^{(i)})^2=2[(h_\theta (x^{(i)}) - y^{(i)})\frac{\partial}{\partial \theta_j}\{h_\theta(x^{(i)})\}]$

Beachten Sie, dass in einem linearen Modell (das auf den von Ihnen erwähnten Seiten erläutert wird) $\frac{\partial}{\partial \theta_j}(h_\theta(x^{(i)})=[x^{(i)}]_j$

$\frac{\partial}{\partial \theta_j}\lambda\sum_{j=1}^n\theta^2=2\lambda\theta_j$

Also für den linearen Fall

$\frac{\partial}{\partial \theta_j}J(\theta) = \frac{1}{m}[\sum_{i=1}^m(h_\theta (x^{(i)}) - y^{(i)})x^{(i)}_j + \lambda\theta_j]$

Sieht so aus, als hätten Sie und Andrew vielleicht Tippfehler. Nun, mindestens zwei von uns drei scheinen es zu tun.

Glen_b - Monica neu starten
quelle

Es ist bestätigt, nur ein Tippfehler auf der Notiz von Andrew, es sollte ein + Zeichen sein. Und Prof erklärt alles richtig, einschließlich der Intuition θ (1-α (λ / m)), was bedeutet, dass jedes Mal, wenn dieses Schrumpfen θ erfolgt, abzüglich des üblichen Teils, bevor die Regularisierung eingeführt wird.

Gob00st

4

Wenn Sie die Vorlesungsunterlagen direkt nach dem Video überprüfen, wird die Formel korrekt angezeigt. Die Folien, die Sie hier gezeichnet haben, zeigen die genaue Folie des Videos.

Piyush
quelle

coursera.org/learn/machine-learning/supplement/pKAsc/… hier ist der Link zu den Notizen direkt nach dem Video, das die richtige Formel zeigt.

Gob00st

1

Eigentlich denke ich, dass das nur ein Tippfehler ist.

Auf Folie 16 schreibt er die Ableitung der Kostenfunktion (mit dem Regularisierungsterm) in Bezug auf Theta, aber sie steht im Kontext des Gradientenabstiegsalgorithmus . Daher multipliziert er diese Ableitung auch mit . Hinweis: In der zweiten Zeile (von Folie 16) hat er (wie Sie geschrieben haben), multipliziert mit . In der dritten Zeile ist der multiplizierte Term jedoch immer noch negativ , obwohl - wenn die zweite Zeile korrekt wäre - die negativen Vorzeichen aufgehoben worden wären. $-\alpha$ $-\lambda\theta$ $-\alpha$

Sinn ergeben?

Steve S.
quelle

Ableitung der regulierten linearen Regressionskostenfunktion pro Coursera-Kurs für maschinelles Lernen

Antworten: