Wie ich verstehe, ist ein Perzeptron / einschichtiges künstliches neuronales Netzwerk mit einer logistischen Sigmoid-Aktivierungsfunktion dasselbe Modell wie eine logistische Regression. Beide Modelle ergeben sich aus der Gleichung:
Der Perzeptron-Lernalgorithmus ist online und fehlergesteuert, während die Parameter für die logistische Regression mithilfe verschiedener Batch-Algorithmen wie Gradientenabstieg und BFGS mit begrenztem Speicher oder eines Online-Algorithmus wie stochastischer Gradientenabstieg gelernt werden können. Gibt es weitere Unterschiede zwischen der logistischen Regression und einem Sigma-Perzeptron? Sollten die Ergebnisse eines mit stochastischer Gradientenabnahme trainierten logistischen Regressors mit denen des Perzeptrons vergleichbar sein?
quelle
Antworten:
Sie haben bereits die wichtigen Unterschiede erwähnt. Die Ergebnisse sollten sich also nicht so stark unterscheiden.
quelle
Ich glaube, ein Unterschied, den Sie vermissen, ist die Tatsache, dass die logistische Regression eine prinzipielle Klassifizierungswahrscheinlichkeit liefert, während Perzeptrone mit einer harten Grenze klassifizieren.
Dies wird im Wiki-Artikel zur multinomialen logistischen Regression erwähnt .
quelle
Es gibt tatsächlich einen großen wesentlichen Unterschied, der mit den von Ihnen erwähnten technischen Unterschieden zusammenhängt. Die logistische Regression modelliert eine Funktion des Mittelwerts einer Bernoulli-Verteilung als lineare Gleichung (wobei der Mittelwert gleich der Wahrscheinlichkeit p eines Bernoulli-Ereignisses ist). Durch die Verwendung des Logit-Links als Funktion des Mittelwerts ( p ) kann der Logarithmus der Quoten (log-odds) analytisch abgeleitet und als Antwort auf ein sogenanntes verallgemeinertes lineares Modell verwendet werden. Die Parameterschätzung dieses GLM ist dann ein statistischer Prozess, der p-Werte und Konfidenzintervalle für Modellparameter liefert. Auf diese Weise können Sie das Modell zusätzlich zur Vorhersage in kausalen Schlussfolgerungen interpretieren. Dies ist etwas, was Sie mit einem linearen Perceptron nicht erreichen können.
Das Perceptron ist ein Reverse Engineering-Prozess der logistischen Regression: Anstatt das logit von y zu verwenden, verwendet es die inverse logit (logistic) -Funktion von wx und verwendet keine probabilistischen Annahmen weder für das Modell noch für dessen Parameterschätzung. In Online-Schulungen erhalten Sie genau die gleichen Schätzungen für die Modellgewichte / -parameter, können diese jedoch aufgrund fehlender p-Werte, Konfidenzintervalle und eines zugrunde liegenden Wahrscheinlichkeitsmodells nicht in kausalen Schlussfolgerungen interpretieren.
Kurz gesagt, logistische Regression ist ein GLM, das Vorhersagen und Schlüsse ziehen kann, wohingegen das lineare Perceptron nur Vorhersagen treffen kann (in diesem Fall entspricht dies der logistischen Regression). Der Unterschied zwischen beiden ist auch der grundlegende Unterschied zwischen statistischer Modellierung und maschinellem Lernen.
quelle