Angenommen, wir ersetzen die Verlustfunktion der logistischen Regression (die normalerweise logarithmisch wahrscheinlich ist) durch die MSE. Das heißt, das logarithmische Quotenverhältnis muss immer noch eine lineare Funktion der Parameter sein, aber die Summe der quadratischen Differenzen zwischen der geschätzten Wahrscheinlichkeit und dem Ergebnis (codiert als 0/1) minimieren:
und minimiere anstelle von ∑ [ y i log p i + ( 1 - y i ) log ( 1 - p i ) ] .
Natürlich verstehe ich, warum die Log-Wahrscheinlichkeit unter bestimmten Voraussetzungen sinnvoll ist. Aber was ist der intuitive Grund, warum die MSE beim maschinellen Lernen, bei dem normalerweise keine Annahmen getroffen werden, völlig unvernünftig ist? (Oder gibt es Situationen, in denen MSE sinnvoll sein könnte?)
Antworten:
Die kurze Antwort lautet, dass die Wahrscheinlichkeitstheorie existiert, um uns zu optimalen Lösungen zu führen, und die Maximierung von etwas anderem als der Wahrscheinlichkeit, der bestraften Wahrscheinlichkeit oder der Bayes'schen posterioren Dichte führt zu suboptimalen Schätzern. Zweitens führt die Minimierung der Summe der quadratischen Fehler zu unvoreingenommenen Schätzungen der wahren Wahrscheinlichkeiten. Hier wünschen Sie keine unvoreingenommenen Schätzungen, da diese Schätzungen negativ oder größer als eins sein können. Um Schätzungen richtig einzuschränken, muss man im Allgemeinen leicht voreingenommene Schätzungen (zur Mitte hin) auf der Wahrscheinlichkeitsskala (nicht der Logit-Skala) erhalten.
Glauben Sie nicht, dass Methoden des maschinellen Lernens keine Annahmen treffen. Dieses Problem hat wenig mit maschinellem Lernen zu tun.
quelle
Obwohl Frank Harrells Antwort richtig ist, denke ich, dass sie den Umfang der Frage verfehlt. Die Antwort auf Ihre Frage lautet: Ja , MSE wäre in einem nichtparametrischen ML-Szenario sinnvoll. Das ML-Äquivalent der logistischen Regression ist das lineare Perzeptron, das keine Annahmen trifft und MSE als Kostenfunktion verwendet. Es verwendet Online-Gradientenabstieg für das Parametertraining und da es ein konvexes Optimierungsproblem löst, sollten Parameterschätzungen im globalen Optimum liegen. Der Hauptunterschied zwischen den beiden Methoden besteht darin, dass Sie mit dem nichtparametrischen Ansatz keine Konfidenzintervalle und p-Werte erhalten und Ihr Modell daher nicht zur Inferenz verwenden können, sondern nur zur Vorhersage.
Das lineare Perceptron macht keine probabilistischen Annahmen. Bei den Daten wird davon ausgegangen, dass sie linear trennbar sind, dies ist jedoch keine Annahme für das Modell. MSE könnte theoretisch von Heteroskedastizität betroffen sein, aber in der Praxis wird dieser Effekt durch die Aktivierungsfunktion aufgehoben.
quelle