Vor kurzem bin ich auf "wahrscheinlichkeitsfreie" Methoden aufmerksam geworden, über die in der Literatur geredet wird. Mir ist jedoch nicht klar, was es bedeutet, dass eine Inferenz- oder Optimierungsmethode wahrscheinlichkeitsfrei ist .
Beim maschinellen Lernen besteht das Ziel normalerweise darin, die Wahrscheinlichkeit zu maximieren, dass einige Parameter zu einer Funktion passen, z. B. die Gewichte in einem neuronalen Netzwerk.
Was genau ist die Philosophie eines wahrscheinlichkeitsfreien Ansatzes und warum fallen gegnerische Netzwerke wie GANs unter diese Kategorie?
Insbesondere sind [die jüngsten] wahrscheinlichkeitsfreien Methoden eine Neuformulierung der ABC-Algorithmen, wobei ABC für eine ungefähre Bayes'sche Berechnung steht . Dies soll Inferenzmethoden abdecken, die keine Verwendung einer Likelihood-Funktion in geschlossener Form erfordern, aber dennoch ein spezifisches statistisches Modell untersuchen sollen. Sie sind frei von Rechenschwierigkeiten, die mit der Wahrscheinlichkeit verbunden sind, aber nicht von dem Modell, das diese Wahrscheinlichkeit erzeugt. Siehe zum Beispiel
quelle
Um die Litanei der Antworten zu erweitern, sind asymptotische Statistiken tatsächlich frei von Wahrscheinlichkeiten.
Eine "Wahrscheinlichkeit" bezieht sich hier auf das Wahrscheinlichkeitsmodell für die Daten . Das interessiert mich vielleicht nicht. Möglicherweise finde ich jedoch einen einfachen Schätzer wie den Mittelwert, der eine angemessene Zusammenfassung der Daten darstellt, und ich möchte Rückschlüsse auf den Mittelwert der Verteilung ziehen (vorausgesetzt, er existiert, was häufig eine vernünftige Annahme ist).
Nach dem zentralen Grenzwertsatz hat der Mittelwert eine annähernde Normalverteilung in großem N, wenn die Varianz ebenfalls existiert. Ich kann konsistente Tests erstellen (die Leistung geht auf 1, wenn N auf unendlich geht, wenn null falsch ist), die die richtige Größe haben. Während ich ein Wahrscheinlichkeitsmodell (das falsch ist) für die Stichprobenverteilung des Mittelwerts in endlichen Stichprobengrößen habe, kann ich eine gültige Schlussfolgerung und eine unvoreingenommene Schätzung erhalten, um meine "nützliche Zusammenfassung der Daten" (den Mittelwert) zu erweitern.
Es ist zu beachten, dass Tests, die auf dem 95% -KI für den Median basieren (dh Option 6 in der Antwort von @ kjetilbhalvorsen), sich auch auf den zentralen Grenzwertsatz stützen, um zu zeigen, dass sie konsistent sind. Es ist also nicht verrückt, den einfachen T-Test als "nicht parametrischen" oder "nicht wahrscheinlichkeitsbasierten" Test zu betrachten.
quelle
Auf der Seite des maschinellen Lernens: Beim maschinellen Lernen versuchen Sie normalerweise, zu maximierenp ( y| x) , wo x ist das Ziel, und y ist die Eingabe (zum Beispiel könnte x ein zufälliges Rauschen sein und y wäre ein Bild). Wie optimieren wir das? Ein üblicher Weg, dies zu tun, ist anzunehmen, dassp ( y| x)=N.( y| μ(x),σ) . Wenn wir dies annehmen, führt dies zum mittleren quadratischen Fehler. Beachten Sie , wir angenommen , als Form fürp ( y| x) . Wenn wir jedoch keine bestimmte Verteilung annehmen, spricht man von wahrscheinlichkeitsfreiem Lernen.
Warum fallen GANs darunter? Nun, die Verlustfunktion ist ein neuronales Netzwerk, und dieses neuronale Netzwerk ist nicht festgelegt, sondern wird gemeinsam gelernt. Daher nehmen wir keine Form mehr an (außer dasp ( y| x) fällt in die Familie der Verteilungen, die durch den Diskriminator dargestellt werden können, aber theoretisch sagen wir, dass es sich ohnehin um einen universellen Funktionsapproximator handelt).
quelle