Fisher Scoring v / s Koordinatenabstieg für MLE in R.

11

Die R-Basisfunktion glm()verwendet Fishers Scoring für MLE, während die glmnetanscheinend die Koordinatenabstiegsmethode verwendet, um dieselbe Gleichung zu lösen. Der Koordinatenabstieg ist zeiteffizienter als das Fisher-Scoring, da das Fisher-Scoring zusätzlich zu einigen anderen Matrixoperationen die Ableitungsmatrix zweiter Ordnung berechnet. Dies ist teuer in der Durchführung, während der Koordinatenabstieg dieselbe Aufgabe in O (np) -Zeit ausführen kann.

Warum sollte die R-Basisfunktion Fisher Scoring verwenden? Hat diese Methode einen Vorteil gegenüber anderen Optimierungsmethoden? Wie vergleichen sich Koordinatenabstieg und Fisher Scoring? Ich bin relativ neu in diesem Bereich, daher ist jede Hilfe oder Ressource hilfreich.

gol
quelle

Antworten:

1

Der einzige Weg, um sicher zu sein, ist das Benchmarking, aber für glm sollte das Fisher-Scoring schneller sein als der koordinierte Abstieg. Das Fisher-Scoring ist ein Sonderfall von Newton Raphson, der eine schnellere Konvergenzrate aufweist als der Koordinatenabstieg (Newton-Raphson ist quadratisch konvergent, während der Koordinatenabstieg linear konvergent ist.) Während die Berechnung der Informationen der zweiten Ableitung bedeutet, dass jeder Schritt mehr dauert Zeit kann es viel weniger Schritte als Koordinatenabstieg erfordern.

Für das Lasso ist es aufgrund der besonderen Form des Strafzeitraums ein ganz besonderer Fall (und tatsächlich ist der absolute Wert sowieso nicht differenzierbar, obwohl man dies manchmal verfeinern kann). Für dieses spezielle Problem erweist sich der Koordinatenabstieg als besonders schnell. Es gibt viele andere Optimierungsprobleme, bei denen Newton-Raphson in der Praxis schneller ist.

Arsmath
quelle