Ich lese Why Momentum Really Works , einen Beitrag aus dem neuen Destillationsjournal. Ich werde die Hauptgleichungen umschreiben, die zu dem Teil führen, der mich verwirrt. Der Beitrag beschreibt die Intuition genauer.
Der Gradientenabstiegsalgorithmus ist durch den folgenden iterativen Prozess gegeben: wobei der Wert der Iteration , die Lernrate und ist der Gradient der bei ausgewerteten Funktion . Die Funktion Sie minimieren möchten.
Der Gradientenabstieg mit Impuls wird durch Hinzufügen von "Gedächtnis" zum Abstieg angegeben. Dies wird durch das Gleichungspaar beschrieben:
Im nächsten Abschnitt "Erste Schritte: Gradientenabstieg" betrachtet der Autor eine konvexe quadratische Funktion mit Gradient Wenn wir annehmen, dass symmetrisch und invertierbar ist, dann hat die optimale Lösung .
Wenn wir einen Gradientenabstieg verwenden würden, würden wir auf folgende Weise zu dieser optimalen Lösung iterieren:
Dann heißt es in dem Artikel weiter: "Es gibt einen sehr natürlichen Raum, um den Gradientenabstieg zu betrachten, in dem alle Dimensionen unabhängig voneinander wirken - die Eigenvektoren von ". Ich denke, das macht Sinn, obwohl meine Intuition irgendwie verschwommen ist.
Jede symmetrische Matrix hat eine Eigenwertzerlegung mit
Wobei und der Vektor mit den entsprechenden Eigenvektoren als Spalten ist (richtig?).
Im nächsten Teil verstehe ich nicht, was los ist:
Wenn wir einen Basiswechsel durchführen, , brechen die Iterationen auseinander und werden:
Umzug zurück zu unserem ursprünglichen Raum , können wir sehen , dass
Was geht hier vor sich? Wo ist die Motivation, in die Eigendomäne aufzunehmen? Was ist ? Warum betrachten wir jetzt einzelne Elemente des Vektors? Ich habe versucht, den Berechnungen zu folgen, aber hängt von was von abhängt , von dem ich dachte, wir wollten es beseitigen. Meine Frage ist, kann jemand diese wenigen Schritte mit etwas Intuition und Berechnungen erweitern? Vielen Dank.
Ich habe dieselbe Zeitung gelesen, bin genau an derselben Stelle festgefahren und habe sie mit Hilfe der Antwort von galoosh33 durchgearbeitet .
Ich fand den Schritt einfach nicht offensichtlich:
Für diejenigen, die die Algebra nicht wollen und nicht sofort sehen, wie wir losgeworden sind , ist es die Substitution und und die Tatsache, dass Eigenvektoren orthogonal sind .b wk= Q.xk+w∗ w∗=EIN- 1b Q.- 1=Q.T.
quelle
Ich werde einige Kommentare in der Sprache des maschinellen Lernens abgeben, die Sie hoffentlich zu einer hilfreichen logischen Schlussfolgerung führen.
Erstens ist das Minimieren dieses quadratischen Ziels wie das Lösen eines Problems der kleinsten Quadrate (wenn dies nicht offensichtlich ist, versuchen Sie es als Übung zu beweisen). Zweitens ist für jedes Problem der kleinsten Quadrate, wenn die Merkmale orthogonal sind, das Schätzen der Koeffizienten getrennt oder nacheinander (wie genau eine Runde des Koordinatenabfalls) gleichbedeutend mit dem gemeinsamen Schätzen. (Wenn dies nicht offensichtlich ist, nehmen wir an, dass die Merkmale orthogonal sind. Sehen Sie, dass dies bedeutet, dass diagonal sein muss? Das bedeutet, dass jeder Eintrag der Lösung nicht von den anderen abhängt.)EIN
Die Frage ist nun: Wie können wir das gleiche Problem lösen, aber mit einer Diagonalmatrix anstelle von ? Drittens ist die Norm orthogonal invariant. Wenn Sie also links oder rechts multiplizieren, was sich innerhalb der Norm befindet, mit einer orthogonalen Matrix (die als Rotation interpretiert wird), können Sie dieses Problem einfach lösen und dann diese orthogonale Transformation am zurücksetzen Ende. Da symmetrisch positiv semidefinit ist, können wir diese orthogonalen Matrizen aus der Eigenwertzerlegung von (auch bekannt als "Diagonalisieren" von ).EIN ℓ2 EIN EIN EIN
Zurück zur Statistik: Dieser Prozess wird manchmal als Bleaching oder Pre-Whitening bezeichnet, obwohl ich glaube, dass es keinen Konsens über die Verwendung dieses Begriffs gibt.
Einfach und locker ausgedrückt , können die Spalten / Zeilen von im Eigenraum von als völlig separate und nicht verwandte Informationen betrachtet werden.EIN EIN
quelle