Warum können lineare und logistische Regressionskoeffizienten nicht mit derselben Methode geschätzt werden?

9

Ich habe in einem Buch über maschinelles Lernen gelesen, dass Parameter der linearen Regression (unter anderem) durch Gradientenabstieg geschätzt werden können, während Parameter der logistischen Regression normalerweise durch Schätzung der maximalen Wahrscheinlichkeit geschätzt werden.

Ist es möglich, einem Neuling (mir) zu erklären, warum wir unterschiedliche Methoden für die lineare / logistische Regression benötigen? aka warum nicht MLE für lineare Regression und warum nicht Gradientenabstieg für logistische Regression?

Sieger
quelle

Antworten:

19

Sie verwechseln Äpfel mit Orangen. Das ist in Ordnung, denn beide sind köstlich.

Bei der Schätzung der maximalen Wahrscheinlichkeit geht es darum, was Sie minimieren. Beim Gradientenabstieg geht es darum, wie Sie es minimieren.

Warum nicht MLE für lineare Regression?

Tatsächlich lineare Regression wird mit Maximum - Likelihood - Schätzung gelöst. Die Standardmethode "Minimieren der Summe der quadratischen Fehler" ist genau mathematisch äquivalent zur Schätzung der maximalen Wahrscheinlichkeit unter Verwendung einer bedingten Normalverteilung.

Warum nicht Gradientenabstieg für logistische Regression?

Sie können die logistische Regression vollständig lösen, indem Sie die Wahrscheinlichkeitsfunktion mithilfe des Gradientenabfalls minimieren . Tatsächlich ist es eine großartige Übung, und ich würde jedem empfehlen, sie mindestens einmal zu machen.

Gradientenabstieg ist jedoch nicht die Standardmethode. Dieser Preis geht an die iterativ neu gewichtete Methode der kleinsten Quadrate / Newtonschen Methode , die eine Verbesserung des Gradientenabfalls darstellt und auch die zweite Ableitung berücksichtigt. Diese Methode hat einfach viel bessere Eigenschaften als der Gradientenabstieg, ist jedoch schwieriger zu verstehen und zu implementieren.

Matthew Drury
quelle
2
Vielen Dank. Ist Newtons Methode dieselbe wie Newton Raphson? Oder ist das etwas anderes?
Victor
2
Ja, ich glaube, diese beziehen sich auf dasselbe Konzept.
Matthew Drury