Die Grundidee der Statistik zur Schätzung von Parametern ist die maximale Wahrscheinlichkeit . Ich frage mich, was der entsprechende Gedanke beim maschinellen Lernen ist.
Frage 1: Wäre es fair zu sagen, dass die Grundidee des maschinellen Lernens zur Schätzung von Parametern lautet: "Verlustfunktionen"?
[Anmerkung: Ich habe den Eindruck, dass Algorithmen für maschinelles Lernen häufig eine Verlustfunktion und damit die oben gestellte Frage optimieren.]
Frage 2: Gibt es Literatur, die versucht, die Lücke zwischen Statistik und maschinellem Lernen zu schließen?
[Anmerkung: Vielleicht, um Verlustfunktionen mit maximaler Wahrscheinlichkeit in Beziehung zu setzen. (zB OLS entspricht der maximalen Wahrscheinlichkeit für normalverteilte Fehler usw.)]
machine-learning
maximum-likelihood
loss-functions
pac-learning
kjetil b halvorsen
quelle
quelle
Antworten:
Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, den Verlust zu minimieren. Da Sie den Verlust, den Sie bei zukünftigen Daten erleiden werden, nicht kennen, minimieren Sie eine Annäherung, dh einen empirischen Verlust.
Wenn Sie beispielsweise eine Vorhersageaufgabe haben und anhand der Anzahl von Fehlklassifizierungen bewertet werden, können Sie Parameter trainieren, sodass das resultierende Modell die geringste Anzahl von Fehlklassifizierungen für die Trainingsdaten erzeugt. "Anzahl der Fehlklassifizierungen" (dh 0-1 Verlust) ist eine schwer zu bearbeitende Verlustfunktion, da sie nicht differenzierbar ist, sodass Sie sie mit einem glatten "Ersatz" approximieren. Zum Beispiel ist der Protokollverlust eine Obergrenze für den 0-1-Verlust, sodass Sie diesen minimieren können. Dies entspricht der Maximierung der bedingten Wahrscheinlichkeit der Daten. Mit dem parametrischen Modell entspricht dieser Ansatz der logistischen Regression.
In einer strukturierten Modellierungsaufgabe und einer Log-Loss-Approximation von 0-1-Verlust erhalten Sie etwas anderes als die maximale bedingte Wahrscheinlichkeit. Stattdessen maximieren Sie das Produkt der (bedingten) Grenzwahrscheinlichkeiten.
Um eine bessere Schätzung des Schadens zu erhalten, bemerkten die Menschen, dass das Trainingsmodell zur Minimierung des Schadens und die Verwendung dieses Schadens als Schätzung des zukünftigen Schadens eine zu optimistische Schätzung ist. Für eine genauere (echte zukünftige Verlust-) Minimierung fügen sie dem empirischen Verlust einen Verzerrungskorrekturterm hinzu und minimieren diesen, was als strukturierte Risikominimierung bezeichnet wird.
In der Praxis kann es zu schwierig sein, den richtigen Bias-Korrekturterm herauszufinden. Fügen Sie daher einen Ausdruck "im Geiste" des Bias-Korrekturterms hinzu, z. B. die Summe der Quadrate von Parametern. Am Ende trainieren fast alle Ansätze mit Überwachung des parametrischen maschinellen Lernens das Modell, um Folgendes zu minimieren
wo Modells durch den Vektor parametrisiert ist , ist , alle Datenpunkte übernommen , einige rechen schöne Annäherung des wahren Verlust ist und ist einige Vorspannungs-Korrektur / Regularisierung Begriff w i { x i , y i } L P ( w )m w ich { xich, yich} L P( w )
Wenn beispielsweise Ihr , , wäre ein typischer Ansatz, , , und wählen Sie durch Kreuzvalidierung y ≤ { - 1 , 1 } m ( x ) = Vorzeichen ( w ≤ x ) L ( m ( x ) , y ) = - log ( y × ( x ≤ w ) ) P ( w ) = q × ( w ⋅ w )x ∈ { - 1 , 1 }d y∈{−1,1} m(x)=sign(w⋅x) L ( m ( x ) , y) = - log( y× ( x ⋅ w ) ) P( w ) = q× ( w ⋅ w ) q
quelle
Ich werde eine detaillierte Antwort geben. Kann auf Anfrage weitere Zitate bereitstellen, obwohl dies nicht wirklich umstritten ist.
Ich glaube nicht, dass es eine Lücke zwischen den Feldern gibt, nur viele verschiedene Ansätze, die sich alle bis zu einem gewissen Grad überschneiden. Ich habe nicht das Bedürfnis, sie zu systematischen Disziplinen mit klar definierten Unterschieden und Ähnlichkeiten zu machen, und angesichts der Geschwindigkeit, mit der sie sich entwickeln, denke ich, dass es sowieso ein zum Scheitern verurteiltes Unternehmen ist.
quelle
Ich kann keinen Kommentar veröffentlichen (die entsprechende Stelle für diesen Kommentar), da ich nicht über genügend Ruf verfüge, aber die Antwort, die vom Eigentümer der Frage als beste Antwort akzeptiert wurde, geht daneben.
"Wenn es in der Statistik darum geht, die Wahrscheinlichkeit zu maximieren, geht es beim maschinellen Lernen darum, Verluste zu minimieren."
Die Wahrscheinlichkeit ist eine Verlustfunktion. Das Maximieren der Wahrscheinlichkeit ist dasselbe wie das Minimieren einer Verlustfunktion: die Abweichung, die nur das -2-fache der logarithmischen Wahrscheinlichkeitsfunktion beträgt. In ähnlicher Weise besteht das Finden einer Lösung für kleinste Quadrate darin, die Verlustfunktion zu minimieren, die die Restsumme der Quadrate beschreibt.
Sowohl ML als auch Statistik verwenden Algorithmen, um die Anpassung einiger Funktionen (im weitesten Sinne) an Daten zu optimieren. Die Optimierung beinhaltet notwendigerweise die Minimierung einer Verlustfunktion.
quelle
Es gibt eine triviale Antwort - es gibt keine Parameterschätzung beim maschinellen Lernen! Wir gehen nicht davon aus, dass unsere Modelle einigen versteckten Hintergrundmodellen entsprechen. Wir behandeln sowohl die Realität als auch das Modell als Blackbox und versuchen, die Modellbox (Zug in offizieller Terminologie) so zu schütteln, dass ihre Ausgabe der der Realitätsbox ähnelt.
Das Konzept nicht nur der Wahrscheinlichkeit, sondern der gesamten Modellauswahl auf der Grundlage der Trainingsdaten wird ersetzt, indem die Genauigkeit (wie auch immer definiert; im Prinzip die Güte bei der gewünschten Verwendung) der unsichtbaren Daten optimiert wird. Dies ermöglicht eine gekoppelte Optimierung der Präzision und des Abrufs. Daraus ergibt sich das Konzept einer Verallgemeinerungsfähigkeit, die je nach Lernertyp auf unterschiedliche Weise erreicht wird.
Die Antwort auf die zweite Frage hängt stark von den Definitionen ab. Dennoch denke ich, dass die nichtparametrische Statistik etwas ist, das die beiden verbindet.
quelle
Ich glaube nicht, dass es beim maschinellen Lernen eine grundlegende Idee zur Parameterschätzung gibt. Die ML-Masse wird die Wahrscheinlichkeit oder den posterior gerne maximieren, solange die Algorithmen effizient sind und "genau" vorhersagen. Der Schwerpunkt liegt auf der Berechnung, und die Ergebnisse der Statistik werden häufig verwendet.
Wenn Sie nach grundlegenden Ideen im Allgemeinen suchen, ist PAC in der rechnergestützten Lerntheorie von zentraler Bedeutung. in der statistischen Lerntheorie, strukturelle Risikominimierung ; und es gibt andere Bereiche (siehe zum Beispiel den Prediction Science- Beitrag von John Langford).
In Bezug auf die Überbrückungsstatistik / ML scheint die Kluft übertrieben. Ich mochte die Antwort von gappy auf die Frage "Zwei Kulturen".
quelle
Sie können ein Problem mit der Wahrscheinlichkeitsmaximierung als Verlustminimierungsproblem neu schreiben, indem Sie den Verlust als negative Protokollwahrscheinlichkeit definieren. Wenn die Wahrscheinlichkeit ein Produkt unabhängiger Wahrscheinlichkeiten oder Wahrscheinlichkeitsdichten ist, ist der Verlust eine Summe unabhängiger Terme, die effizient berechnet werden können. Wenn die stochastischen Variablen normalverteilt sind, ist das entsprechende Verlustminimierungsproblem ein Problem der kleinsten Quadrate.
Wenn es möglich ist, ein Verlustminimierungsproblem durch Umschreiben einer Wahrscheinlichkeitsmaximierung zu erstellen, sollte dies vorgezogen werden, um ein Verlustminimierungsproblem von Grund auf neu zu erstellen, da dies zu einem (hoffentlich) größeren Verlustminimierungsproblem führt theoretisch begründet und weniger ad hoc. Zum Beispiel ergeben sich Gewichte, wie zum Beispiel in gewichteten kleinsten Quadraten, für die Sie normalerweise Werte schätzen müssen, einfach aus dem Prozess des Umschreibens des ursprünglichen Problems der Wahrscheinlichkeitsmaximierung und haben bereits (hoffentlich) optimale Werte.
quelle