In Andrew Ngs Kurs über maschinelles Lernen führt er in die lineare und logistische Regression ein und zeigt, wie die Modellparameter mithilfe des Gradientenabfalls und der Newton-Methode angepasst werden.
Ich weiß, dass Gradientenabstieg in einigen Anwendungen des maschinellen Lernens (z. B. Backpropogation) nützlich sein kann, aber im allgemeineren Fall gibt es einen Grund, warum Sie die Parameter nicht in geschlossener Form auflösen würden - dh indem Sie die Ableitung von nehmen die Kostenfunktion und das Lösen über Calculus?
Was ist der Vorteil der Verwendung eines iterativen Algorithmus wie Gradientenabstieg gegenüber einer geschlossenen Lösung im Allgemeinen, wenn eine verfügbar ist?
Antworten:
Sofern die Berechnung der Lösung in geschlossener Form nicht extrem teuer ist, ist sie in der Regel der richtige Weg, wenn sie verfügbar ist. Jedoch,
Für die meisten nichtlinearen Regressionsprobleme gibt es keine geschlossene Lösung.
Selbst bei linearer Regression (einer der wenigen Fälle, in denen eine Lösung in geschlossener Form verfügbar ist) kann es unpraktisch sein, die Formel zu verwenden. Das folgende Beispiel zeigt eine Möglichkeit, wie dies geschehen kann.
ist gegeben durch
Stellen Sie sich nun vor, dass eine sehr große, aber spärliche Matrix ist. Beispiel: möglicherweise 100.000 Spalten und 1.000.000 Zeilen, aber nur 0,001% der Einträge in sind ungleich Null. Es gibt spezialisierte Datenstrukturen, um nur die Nicht-Null-Einträge solcher spärlicher Matrizen zu speichern. X XX X X
Stellen Sie sich auch vor, wir hätten Pech und ist eine ziemlich dichte Matrix mit einem viel höheren Anteil von Einträgen ungleich Null. Das Speichern einer Matrix mit einer Dichte von 100.000 mal 100.000 Elementen würde dann Gleitkommazahlen erfordern (bei 8 Bytes pro Zahl sind dies 80 Gigabyte). Das Speichern auf irgendetwas wäre unpraktisch aber ein supercomputer. Darüber hinaus würde die Inverse dieser Matrix (oder häufiger ein Cholesky-Faktor) auch dazu neigen, Einträge zu haben, die meistens nicht Null sind. X T X 1 × 10 10XTX XTX 1 × 1010
Es gibt jedoch iterative Methoden zum Lösen des Problems der kleinsten Quadrate, die nicht mehr Speicher als , und erfordern und niemals explizit das Matrixprodukt . y β X T XX y β^ XTX
In dieser Situation ist die Verwendung einer iterativen Methode recheneffizienter als die Verwendung der geschlossenen Lösung für das Problem der kleinsten Fehlerquadrate.
Dieses Beispiel mag absurd groß erscheinen. Probleme mit großen, spärlichen kleinsten Quadraten dieser Größe werden jedoch routinemäßig durch iterative Methoden auf Desktop-Computern in der seismischen Tomographie-Forschung gelöst.
quelle
Es gab mehrere Beiträge zu maschinellem Lernen (ML) und Regression. ML wird zum Lösen von gewöhnlichen kleinsten Quadraten (OLS) nicht benötigt, da es sich um eine einstufige Matrix-Sandwich-Operation zum Lösen eines linearen Gleichungssystems handelt - dh . Die Tatsache, dass alles linear ist, bedeutet, dass nur eine einstufige Operation erforderlich ist, um die Koeffizienten zu lösen. Die logistische Regression basiert auf der Maximierung der Wahrscheinlichkeitsfunktion , die mithilfe von Newton-Raphson oder anderen ML-Gradientenaufstiegsmethoden, Metaheuristiken (Bergsteigen, genetische Algorithmen, Schwarmintelligenz, Ameisenkolonieoptimierung usw.) gelöst werden kann. .β=(XTX)−1XTy L=∏ipi
In Bezug auf Sparsamkeit wäre die Verwendung von ML für OLS verschwenderisch, da iteratives Lernen für die Lösung von OLS ineffizient ist.
Zurück zu Ihrer eigentlichen Frage zu Derivaten vs. ML-Ansätzen zur Lösung gradientenbasierter Probleme. Insbesondere für die logistische Regression wird häufig der Newton-Raphson-Ansatz des Gradientenabfalls (auf Derivaten basierend) verwendet. Newton-Raphson setzt voraus, dass Sie die Zielfunktion und ihre partiellen Ableitungen für jeden Parameter kennen (stetig im Grenzwert und differenzierbar). ML wird meistens verwendet, wenn die Zielfunktion zu komplex ("narly") ist und Sie die Ableitungen nicht kennen. Beispielsweise kann ein künstliches neuronales Netzwerk (ANN) verwendet werden, um entweder ein Funktionsnäherungsproblem oder ein überwachtes Klassifizierungsproblem zu lösen, wenn die Funktion nicht bekannt ist. In diesem Fall ist die ANN die Funktion.
Machen Sie nicht den Fehler, ML-Methoden zu verwenden, um ein logistisches Regressionsproblem zu lösen, nur weil Sie es können. Für die Logistik ist Newton-Raphson extrem schnell und die geeignete Technik zur Lösung des Problems. ML wird häufig verwendet, wenn Sie die Funktion nicht kennen. (ANNs stammen übrigens aus dem Bereich der Computerintelligenz und nicht von ML).
quelle