Ich habe vor ein paar Monaten Andrew Ngs Kurs "Maschinelles Lernen" über Coursera besucht, ohne auf die meisten Mathematik / Ableitungen zu achten und mich stattdessen auf Implementierung und Praktikabilität zu konzentrieren. Seitdem habe ich wieder angefangen, einige der zugrunde liegenden Theorien zu studieren, und einige der Vorlesungen von Prof. Ng erneut besucht. Ich las seinen Vortrag über "Regularisierte lineare Regression" durch und sah, dass er die folgende Kostenfunktion gab:
Dann gibt er den folgenden Gradienten für diese Kostenfunktion an:
Ich bin ein wenig verwirrt darüber, wie er von einem zum anderen kommt. Als ich versuchte, meine eigene Ableitung vorzunehmen, hatte ich folgendes Ergebnis:
Der Unterschied ist das Pluszeichen zwischen der ursprünglichen Kostenfunktion und dem Regularisierungsparameter in der Formel von Prof. Ng, der sich in seiner Gradientenfunktion in ein Minuszeichen ändert, während dies in meinem Ergebnis nicht der Fall ist.
Intuitiv verstehe ich, warum es negativ ist: Wir reduzieren den Theta-Parameter um die Gradientenzahl, und wir möchten, dass der Regularisierungsparameter den Betrag reduziert, um den wir den Parameter ändern, um eine Überanpassung zu vermeiden. Ich bin nur ein wenig auf den Kalkül fixiert, der diese Intuition stützt.
Zu Ihrer Information, Sie finden das Deck hier auf den Folien 15 und 16.
quelle
Antworten:
Jetzt
Beachten Sie, dass in einem linearen Modell (das auf den von Ihnen erwähnten Seiten erläutert wird)∂∂θj(hθ(x(i))=[x(i)]j
Also für den linearen Fall
Sieht so aus, als hätten Sie und Andrew vielleicht Tippfehler. Nun, mindestens zwei von uns drei scheinen es zu tun.
quelle
Wenn Sie die Vorlesungsunterlagen direkt nach dem Video überprüfen, wird die Formel korrekt angezeigt. Die Folien, die Sie hier gezeichnet haben, zeigen die genaue Folie des Videos.
quelle
Eigentlich denke ich, dass das nur ein Tippfehler ist.
Auf Folie 16 schreibt er die Ableitung der Kostenfunktion (mit dem Regularisierungsterm) in Bezug auf Theta, aber sie steht im Kontext des Gradientenabstiegsalgorithmus . Daher multipliziert er diese Ableitung auch mit . Hinweis: In der zweiten Zeile (von Folie 16) hat er (wie Sie geschrieben haben), multipliziert mit . In der dritten Zeile ist der multiplizierte Term jedoch immer noch negativ , obwohl - wenn die zweite Zeile korrekt wäre - die negativen Vorzeichen aufgehoben worden wären.- λ θ - α−α −λθ −α
Sinn ergeben?
quelle