Auflösen nach Regressionsparametern in geschlossener Form gegen Gradientenabstieg

In Andrew Ngs Kurs über maschinelles Lernen führt er in die lineare und logistische Regression ein und zeigt, wie die Modellparameter mithilfe des Gradientenabfalls und der Newton-Methode angepasst werden.

Ich weiß, dass Gradientenabstieg in einigen Anwendungen des maschinellen Lernens (z. B. Backpropogation) nützlich sein kann, aber im allgemeineren Fall gibt es einen Grund, warum Sie die Parameter nicht in geschlossener Form auflösen würden - dh indem Sie die Ableitung von nehmen die Kostenfunktion und das Lösen über Calculus?

Was ist der Vorteil der Verwendung eines iterativen Algorithmus wie Gradientenabstieg gegenüber einer geschlossenen Lösung im Allgemeinen, wenn eine verfügbar ist?

regression machine-learning logistic gradient-descent Jeff
quelle

Ich glaube nicht, dass es für die MLE der Regressionsparameter in den meisten Glms eine geschlossene Lösung gibt (z. B. logistische Regression). Eine Ausnahme bildet die lineare Regression mit normalen Fehlern.

Makro

Interessant ... Bedeutet dies, dass unterschiedliche Statistikpakete unterschiedliche Antworten für die logistische Regression geben können, abhängig von z. B. anfänglichen Parametereinstellungen, Anzahl der Iterationen, mehreren lokalen Minima usw. - oder gibt es ein herkömmliches Verfahren, das für alle guten Statistikpakete gilt Folgen? (Obwohl ich mir sicher bin, dass Unterschiede, falls vorhanden, in den meisten Fällen

Jeff

(+1) Zu Ihrer Frage und Ihrem Kommentar, Jeff. GLMs, die die kanonische Verknüpfung (wie die logistische Regression) verwenden, profitieren von den schönen Eigenschaften der Konvexität. Es kann mehr als einen Algorithmus geben, um solche Probleme zu lösen, aber die grundlegende Folge davon ist, dass (modulo einige ziemlich kleine Details) gut implementierte numerische Algorithmen konsistente Ergebnisse zwischen ihnen liefern.

Kardinal

Ich persönlich mag den Kurs von Andrew Ng nicht, weil er die Leute dazu veranlasst hat zu glauben, dass lineare Regression "maschinelles Lernen" ist.

Digio

Siehe auch: Brauchen wir Gradientenabstieg, um die Koeffizienten eines linearen Regressionsmodells zu finden

Antworten:

Sofern die Berechnung der Lösung in geschlossener Form nicht extrem teuer ist, ist sie in der Regel der richtige Weg, wenn sie verfügbar ist. Jedoch,

Für die meisten nichtlinearen Regressionsprobleme gibt es keine geschlossene Lösung.
Selbst bei linearer Regression (einer der wenigen Fälle, in denen eine Lösung in geschlossener Form verfügbar ist) kann es unpraktisch sein, die Formel zu verwenden. Das folgende Beispiel zeigt eine Möglichkeit, wie dies geschehen kann.

$y=X\beta$ $X$

$\hat{\beta} = \arg \min \| X \beta -y \|_{2}$

ist gegeben durch

$\hat{\beta}=(X^{T}X)^{-1}X^{T}y$

Stellen Sie sich nun vor, dass eine sehr große, aber spärliche Matrix ist. Beispiel: möglicherweise 100.000 Spalten und 1.000.000 Zeilen, aber nur 0,001% der Einträge in sind ungleich Null. Es gibt spezialisierte Datenstrukturen, um nur die Nicht-Null-Einträge solcher spärlicher Matrizen zu speichern. $X$ $X$ $X$

Stellen Sie sich auch vor, wir hätten Pech und ist eine ziemlich dichte Matrix mit einem viel höheren Anteil von Einträgen ungleich Null. Das Speichern einer Matrix mit einer Dichte von 100.000 mal 100.000 Elementen würde dann Gleitkommazahlen erfordern (bei 8 Bytes pro Zahl sind dies 80 Gigabyte). Das Speichern auf irgendetwas wäre unpraktisch aber ein supercomputer. Darüber hinaus würde die Inverse dieser Matrix (oder häufiger ein Cholesky-Faktor) auch dazu neigen, Einträge zu haben, die meistens nicht Null sind. $X^{T}X$ $X^{T}X$ $1 \times 10^{10}$

Es gibt jedoch iterative Methoden zum Lösen des Problems der kleinsten Quadrate, die nicht mehr Speicher als , und erfordern und niemals explizit das Matrixprodukt . $X$ $y$ $\hat{\beta}$ $X^{T}X$

In dieser Situation ist die Verwendung einer iterativen Methode recheneffizienter als die Verwendung der geschlossenen Lösung für das Problem der kleinsten Fehlerquadrate.

Dieses Beispiel mag absurd groß erscheinen. Probleme mit großen, spärlichen kleinsten Quadraten dieser Größe werden jedoch routinemäßig durch iterative Methoden auf Desktop-Computern in der seismischen Tomographie-Forschung gelöst.

Brian Borchers
quelle

Ich sollte erwähnen, dass es auch numerische Genauigkeitsprobleme gibt, die die Verwendung der Lösung in geschlossener Form für das Problem der kleinsten Fehlerquadrate nicht ratsam machen können. Dies würde jedoch eine Diskussion über schlechte Konditionierung erfordern, die wahrscheinlich über das derzeitige Verständnis des ursprünglichen Plakats hinausgeht.

Brian Borchers

Bitte zögern Sie nicht, eine Antwort zu schreiben, da Sie nicht glauben, dass ich es verstehen werde. first-- Es tut nicht weh, mehr Informationen bereitzustellen, auch wenn ich nachforschen muss, um sie zu verstehen. Zweitens: Das Stack-Exchange-Modell geht davon aus, dass diese Frage und Antwort in Zukunft anderen zugute kommen wird. Mit anderen Worten, täuschen Sie Ihre Antwort nicht auf der Grundlage dessen, wie viel Sie glauben, dass das OP weiß, oder Sie werden anderen einen schlechten Dienst erweisen.

Jeff

@Brian, mein Gefühl ist, dass dein Kommentar den Kern des Problems trifft und ein bisschen im Widerspruch zum ersten Satz in der Antwort steht. Ich glaube nicht, dass eine Least-Squares-Software (bei klarem Verstand) die Closed-Form-Lösung einsetzt. :)

Kardinal

Kardinal - in der Praxis ist es am besten, die QR-Faktorisierung oder SVD zu verwenden, um Probleme mit kleinsten Quadraten zu lösen. Ich würde argumentieren, dass eine Lösung, die eine dieser orthogonalen Faktorisierungen verwendet, im Vergleich zu einer iterativen Technik wie LSQR auch eine "Lösung in geschlossener Form" ist. Ich habe mich in meiner Antwort nicht damit befasst, weil es unnötigerweise die Aufmerksamkeit von meinem Hauptpunkt ablenkt.

Brian Borchers

Schlechte Konditionierung? Lehrbuch geschlossene Form Lösung? Ich liebe den Geruch von quadratischen Zustandszahlen am Morgen. Haben Sie eine große Zustandsnummer? Warum nicht ausrichten und noch größer machen? Haben Sie eine nicht so große Zustandsnummer? Warum nicht ausrichten und groß machen?

Mark L. Stone

Es gab mehrere Beiträge zu maschinellem Lernen (ML) und Regression. ML wird zum Lösen von gewöhnlichen kleinsten Quadraten (OLS) nicht benötigt, da es sich um eine einstufige Matrix-Sandwich-Operation zum Lösen eines linearen Gleichungssystems handelt - dh . Die Tatsache, dass alles linear ist, bedeutet, dass nur eine einstufige Operation erforderlich ist, um die Koeffizienten zu lösen. Die logistische Regression basiert auf der Maximierung der Wahrscheinlichkeitsfunktion , die mithilfe von Newton-Raphson oder anderen ML-Gradientenaufstiegsmethoden, Metaheuristiken (Bergsteigen, genetische Algorithmen, Schwarmintelligenz, Ameisenkolonieoptimierung usw.) gelöst werden kann. . $\boldsymbol{\beta}=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}$ $L=\prod_i{p_i}$

In Bezug auf Sparsamkeit wäre die Verwendung von ML für OLS verschwenderisch, da iteratives Lernen für die Lösung von OLS ineffizient ist.

Zurück zu Ihrer eigentlichen Frage zu Derivaten vs. ML-Ansätzen zur Lösung gradientenbasierter Probleme. Insbesondere für die logistische Regression wird häufig der Newton-Raphson-Ansatz des Gradientenabfalls (auf Derivaten basierend) verwendet. Newton-Raphson setzt voraus, dass Sie die Zielfunktion und ihre partiellen Ableitungen für jeden Parameter kennen (stetig im Grenzwert und differenzierbar). ML wird meistens verwendet, wenn die Zielfunktion zu komplex ("narly") ist und Sie die Ableitungen nicht kennen. Beispielsweise kann ein künstliches neuronales Netzwerk (ANN) verwendet werden, um entweder ein Funktionsnäherungsproblem oder ein überwachtes Klassifizierungsproblem zu lösen, wenn die Funktion nicht bekannt ist. In diesem Fall ist die ANN die Funktion.

Machen Sie nicht den Fehler, ML-Methoden zu verwenden, um ein logistisches Regressionsproblem zu lösen, nur weil Sie es können. Für die Logistik ist Newton-Raphson extrem schnell und die geeignete Technik zur Lösung des Problems. ML wird häufig verwendet, wenn Sie die Funktion nicht kennen. (ANNs stammen übrigens aus dem Bereich der Computerintelligenz und nicht von ML).

JoleT
quelle