Ich frage mich, warum wir bei der Modellierung des Fehlers die Gaußsche Annahme verwenden. In Stanfords ML-Kurs beschreibt Prof. Ng es im Wesentlichen auf zwei Arten:
- Es ist mathematisch günstig. (Es hängt mit der Anpassung der kleinsten Quadrate zusammen und ist mit Pseudoinverse leicht zu lösen.)
- Aufgrund des zentralen Grenzwertsatzes können wir annehmen, dass es viele zugrunde liegende Tatsachen gibt, die den Prozess beeinflussen, und die Summe dieser einzelnen Fehler tendiert dazu, sich wie bei einer Normalverteilung mit einem Mittelwert von Null zu verhalten. In der Praxis scheint es so zu sein.
Mich interessiert eigentlich der zweite Teil. Der zentrale Grenzwertsatz funktioniert meines Wissens für iid-Samples, aber wir können nicht garantieren, dass die zugrunde liegenden Samples iid sind.
Haben Sie eine Vorstellung von der Gaußschen Annahme des Fehlers?
regression
normality-assumption
pac-learning
Petrichor
quelle
quelle
Antworten:
Ich denke, Sie haben in der Frage im Grunde den Nagel auf den Kopf getroffen, aber ich werde sehen, ob ich trotzdem etwas hinzufügen kann. Ich werde das auf eine Art Umweg beantworten ...
Das Feld der robusten Statistik untersucht die Frage, was zu tun ist, wenn die Gaußsche Annahme fehlschlägt (in dem Sinne, dass es Ausreißer gibt):
Diese wurden auch in ML angewendet, zum Beispiel in Mika el al. (2001) Ein mathematischer Programmieransatz zum Kernel-Fisher-Algorithmus , der beschreibt, wie Hubers Robust Loss mit KDFA (zusammen mit anderen Verlustfunktionen) verwendet werden kann. Natürlich ist dies ein Klassifizierungsverlust, aber KFDA ist eng mit der Relevanz-Vektor-Maschine verwandt (siehe Abschnitt 4 des Mika-Papiers).
Wie in der Frage impliziert, besteht ein enger Zusammenhang zwischen Verlustfunktionen und Bayes'schen Fehlermodellen (siehe hier für eine Diskussion).
Es kann jedoch vorkommen, dass die Optimierung schwierig wird, sobald Sie anfangen, "funky" -Dämpfungsfunktionen zu integrieren (beachten Sie, dass dies auch in der Bayes'schen Welt der Fall ist). In vielen Fällen greifen die Benutzer daher auf einfach zu optimierende Standardverlustfunktionen zurück und führen stattdessen eine zusätzliche Vorverarbeitung durch, um sicherzustellen, dass die Daten dem Modell entsprechen.
Der andere Punkt, den Sie erwähnen, ist, dass die CLT nur für Proben gilt, die IID sind. Dies ist wahr, aber dann sind die Annahmen (und die begleitende Analyse) der meisten Algorithmen gleich. Wenn Sie anfangen, Nicht-IID-Daten zu betrachten, werden die Dinge viel kniffliger. Ein Beispiel ist, wenn es eine zeitliche Abhängigkeit gibt. In diesem Fall wird normalerweise davon ausgegangen, dass die Abhängigkeit nur ein bestimmtes Fenster überspannt, und Proben können daher als ungefähr IID außerhalb dieses Fensters betrachtet werden (siehe zum Beispiel dieses brillante, aber harte Papier, Chromatic PAC) -Bayes Bounds für Nicht-IID-Daten: Anwendungen für Rangfolgen und stationäre β-Mischprozesse. Danach kann die normale Analyse angewendet werden.
Also, ja, es kommt zum Teil auf die Bequemlichkeit an und zum Teil, weil in der realen Welt die meisten Fehler (ungefähr) nach Gauß aussehen. Man sollte natürlich immer vorsichtig sein, wenn man sich ein neues Problem ansieht, um sicherzustellen, dass die Annahmen nicht verletzt werden.
quelle