Ich bin neu in der Konvertierung von Formeln in Matrixform. Dies ist jedoch für einen effizienten Code für maschinelles Lernen erforderlich. Also möchte ich den "richtigen" Weg verstehen, nicht das Cowboy-Zeug, das ich mache.
Okay, jetzt geht es los. Ich versuche, die gewichtete Quadratsumme aus der folgenden Form in eine Matrixform umzuwandeln. Ich sehe die Matrixform oft als äquivalent zu der folgenden, und es wird keine Erklärung gegeben, wie sie abgeleitet wird.
Dabei ist das Gewicht für jeden Stichprobenfehler . Außerdem ist , , , , . ist der vorhergesagte Wert, das Ergebnis der Multiplikation eines Gewichtsvektors mit einem Merkmalsvektor.
Folgendes denke ich und werde kreativ. Fühlen Sie sich also frei, bis zum Ende zu springen, wenn ich eine Tangente mache.
Sei ein Spaltenvektor von Funktionen, der den nicht quadratischen Fehler darstellt. Wir können über as darstellen
Die Ergebnisse des Vektors multipliziert mit dem Vektor sind eine Matrix (Skalar).
Sei ein Vektor von Gewichten, der jeden Stichprobenfehler wiegt. Da wir die quadratischen Fehler abwägen müssen, müssen wir in die Formel bevor wir den Skalar erhalten. Da wir wollen, dass das erste als Vektor bleibt , definieren wir als eine Diagonalmatrix, wobei die diagonalen Terme von . Wir haben nun:
Wir können dies vereinfachen, um
Jetzt erweitern wir . Wir hatten multipliziert mit , was uns gab, wobei X jetzt eine Matrix und ein Spaltenvektor ist. Sei y der Spaltenvektor, der die Bezeichnungen . Jetzt ist . Wir setzen dies in die Formel und geben uns die endgültige gewichtete Summe der Quadrate in Matrixform:
Ist das zunächst sinnvoll? Zweitens, und was am wichtigsten ist, ist das eigentlich so, wie Sie es tun sollen?
Vielen Dank
Antworten:
Ich werde eine Antwort auf diese Frage wagen: Alles, was Sie präsentiert haben, ist korrekt.
Was Sie im Grunde genommen abgeleitet haben, ist das Gauß-Markov-Theorem: Der Schätzer für gewichtete kleinste Quadrate ist der beste lineare unverzerrte Schätzer für gewichtete Daten. Dieser Schätzer minimiert die gewichtete Quadratsumme (Ihre erste Anzeige) und ist gegeben durch: . Hier ist die Entwurfsmatrix, wobei die erste Spalte auf der Vektor von Einsen (dies ist der Intercept-Term).β^WLS=(XTWX)(XTWY) X 1 n×1
Dieses Ergebnis gilt für eine beliebige Kovarianzmatrix. Gewichtete unabhängige Daten werden jedoch mit einem Gewichtsvektor entlang der Diagonale der Gewichtsmatrix dargestellt. (Ihre Notation hat als Regressionskoeffizienten und als Gewicht. Um Verwirrung zu vermeiden, die Entwurfsmatrix und .w u X=[x],W=diag(u), β=[w]
Der Beweis des Gaußschen Markov-Theorems ist widersprüchlich. Siehe hier . Das bedeutet, dass wir einen solchen Schätzer nicht direkt aus der Verlustfunktion analytisch ableiten. Möglicherweise haben Sie einen solchen Ansatz gesehen, bei dem lineare und logistische Regressionsschätzungsgleichungen abgeleitet wurden.
quelle