Wahrscheinlichkeitsfreie Folgerung - was bedeutet das?

11

Vor kurzem bin ich auf "wahrscheinlichkeitsfreie" Methoden aufmerksam geworden, über die in der Literatur geredet wird. Mir ist jedoch nicht klar, was es bedeutet, dass eine Inferenz- oder Optimierungsmethode wahrscheinlichkeitsfrei ist .

Beim maschinellen Lernen besteht das Ziel normalerweise darin, die Wahrscheinlichkeit zu maximieren, dass einige Parameter zu einer Funktion passen, z. B. die Gewichte in einem neuronalen Netzwerk.

Was genau ist die Philosophie eines wahrscheinlichkeitsfreien Ansatzes und warum fallen gegnerische Netzwerke wie GANs unter diese Kategorie?

Mellow
quelle

Antworten:

10

Es gibt viele Beispiele für Methoden, die nicht auf Wahrscheinlichkeiten in der Statistik basieren (ich weiß nichts über maschinelles Lernen). Einige Beispiele:

  1. Fisher's reine Signifikanztests . Basierend nur auf einer scharf definierten Nullhypothese (z. B. kein Unterschied zwischen Milch zuerst und Milch zuletzt im Lady Tasting Tea-Experiment. Diese Annahme führt zu einer Nullhypothesenverteilung und dann zu einem p-Wert. Keine Wahrscheinlichkeit beteiligt. Diese minimale Inferenzmaschinerie kann an sich keine Grundlage für die Leistungsanalyse (keine formal definierte Alternative) oder Konfidenzintervalle (kein formal definierter Parameter) geben.

  2. Mit 1. verbunden sind Randomisierungstests. Unterschied zwischen Randomisierungstest und Permutationstest , der in seiner grundlegendsten Form ein reiner Signifikanztest ist.

  3. Das Bootstrapping erfolgt ohne die Notwendigkeit einer Wahrscheinlichkeitsfunktion. Es gibt jedoch Verbindungen zu Wahrscheinlichkeitsideen, beispielsweise zur empirischen Wahrscheinlichkeit .

  4. Rangbasierte Methoden verwenden normalerweise keine Wahrscheinlichkeit.

  5. Viele robuste Statistiken.

  6. Konfidenzintervalle für den Median (oder andere Quantile) können auf Ordnungsstatistiken basieren. An den Berechnungen ist keine Wahrscheinlichkeit beteiligt. Konfidenzintervall für den Median , Bester Schätzer für die Varianz des empirischen Medians

  7. V Vapnik hatte die Idee des transduktiven Lernens, die mit https://en.wikipedia.org/wiki/Epilogism in Zusammenhang zu stehen scheint, wie im Black Swan Taleb und im Black Swan diskutiert .

  8. N.(μ,σ2)N.(9.37,2.122)

Im Moment, in dem Sie eine Wahrscheinlichkeitsfunktion haben, gibt es eine immense Maschinerie, auf der Sie aufbauen können. Bayesianer können nicht darauf verzichten, und die meisten anderen nutzen die Wahrscheinlichkeit die meiste Zeit. In einem Kommentar wird jedoch darauf hingewiesen, dass sogar Bayesianer darauf verzichten wollen, siehe Approximate_Bayesian_computation . Es gibt sogar einen neuen Text zu diesem Thema.

Aber woher kommen sie? Um eine Wahrscheinlichkeitsfunktion auf die übliche Weise zu erhalten, benötigen wir viele Annahmen, die schwer zu rechtfertigen sein können.

Es ist interessant zu fragen, ob wir Likelihood-Funktionen auf irgendeine Weise aus einigen dieser Likelihood-freien Methoden konstruieren können. Können wir zum Beispiel Punkt 6 oben eine Wahrscheinlichkeitsfunktion für den Median aus (einer Familie von) Konfidenzintervallen konstruieren, die aus der Ordnungsstatistik berechnet wurden? Ich sollte das als separate Frage stellen ...

Ihre letzte Frage zu GANs muss ich anderen überlassen.

kjetil b halvorsen
quelle
7
(+1) Siehe jedoch Ungefähre Bayes'sche Berechnung . (Ich habe den Eindruck, dass "wahrscheinlichkeitsfrei" eher für Verfahren verwendet wird, bei denen Sie erwarten würden, dass sie eine Wahrscheinlichkeitsfunktion ausarbeiten müssen, dies aber nicht müssen, als für Randomisierungstests und dergleichen, für die Sie offensichtlich keine verwenden. ' t.)
Scortchi
9

Insbesondere sind [die jüngsten] wahrscheinlichkeitsfreien Methoden eine Neuformulierung der ABC-Algorithmen, wobei ABC für eine ungefähre Bayes'sche Berechnung steht . Dies soll Inferenzmethoden abdecken, die keine Verwendung einer Likelihood-Funktion in geschlossener Form erfordern, aber dennoch ein spezifisches statistisches Modell untersuchen sollen. Sie sind frei von Rechenschwierigkeiten, die mit der Wahrscheinlichkeit verbunden sind, aber nicht von dem Modell, das diese Wahrscheinlichkeit erzeugt. Siehe zum Beispiel

  1. Grelaud, A; Marin, JM; Robert, C; Rodolphe, F; Tally, F (2009). "Wahrscheinlichkeitsfreie Methoden zur Modellauswahl in Gibbs-Zufallsfeldern". Bayesianische Analyse. 3: 427–442 .
  2. Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S. (2009). "Modellkritik basierend auf wahrscheinlichkeitsfreier Inferenz mit einer Anwendung auf die Evolution von Proteinnetzwerken". Verfahren der National Academy of Sciences der Vereinigten Staaten von Amerika. 106: 10576–10581 .
  3. Bazin, E., Dawson, KJ & Beaumont, MA (2010). Wahrscheinlichkeitsfreie Inferenz der Bevölkerungsstruktur und lokale Anpassung in einem Bayes'schen hierarchischen Modell. Genetics, 185 (2), 587 & ndash; 602 .
  4. Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Wahrscheinlichkeitsfreie Schätzung von Modellbeweisen". Bayesianische Analyse. 6: 49–76 .
  5. Gutmann, M. und Corander, J. (2016) Bayesianische Optimierung zur wahrscheinlichkeitsfreien Inferenz simulatorbasierter statistischer Modelle Journal of Machine Learning Research .
Xi'an
quelle
2

Um die Litanei der Antworten zu erweitern, sind asymptotische Statistiken tatsächlich frei von Wahrscheinlichkeiten.

Eine "Wahrscheinlichkeit" bezieht sich hier auf das Wahrscheinlichkeitsmodell für die Daten . Das interessiert mich vielleicht nicht. Möglicherweise finde ich jedoch einen einfachen Schätzer wie den Mittelwert, der eine angemessene Zusammenfassung der Daten darstellt, und ich möchte Rückschlüsse auf den Mittelwert der Verteilung ziehen (vorausgesetzt, er existiert, was häufig eine vernünftige Annahme ist).

Nach dem zentralen Grenzwertsatz hat der Mittelwert eine annähernde Normalverteilung in großem N, wenn die Varianz ebenfalls existiert. Ich kann konsistente Tests erstellen (die Leistung geht auf 1, wenn N auf unendlich geht, wenn null falsch ist), die die richtige Größe haben. Während ich ein Wahrscheinlichkeitsmodell (das falsch ist) für die Stichprobenverteilung des Mittelwerts in endlichen Stichprobengrößen habe, kann ich eine gültige Schlussfolgerung und eine unvoreingenommene Schätzung erhalten, um meine "nützliche Zusammenfassung der Daten" (den Mittelwert) zu erweitern.

Es ist zu beachten, dass Tests, die auf dem 95% -KI für den Median basieren (dh Option 6 in der Antwort von @ kjetilbhalvorsen), sich auch auf den zentralen Grenzwertsatz stützen, um zu zeigen, dass sie konsistent sind. Es ist also nicht verrückt, den einfachen T-Test als "nicht parametrischen" oder "nicht wahrscheinlichkeitsbasierten" Test zu betrachten.

AdamO
quelle
1

Auf der Seite des maschinellen Lernens: Beim maschinellen Lernen versuchen Sie normalerweise, zu maximieren p(y|x), wo x ist das Ziel, und yist die Eingabe (zum Beispiel könnte x ein zufälliges Rauschen sein und y wäre ein Bild). Wie optimieren wir das? Ein üblicher Weg, dies zu tun, ist anzunehmen, dassp(y|x)=N.(y|μ(x),σ). Wenn wir dies annehmen, führt dies zum mittleren quadratischen Fehler. Beachten Sie , wir angenommen , als Form fürp(y|x). Wenn wir jedoch keine bestimmte Verteilung annehmen, spricht man von wahrscheinlichkeitsfreiem Lernen.

Warum fallen GANs darunter? Nun, die Verlustfunktion ist ein neuronales Netzwerk, und dieses neuronale Netzwerk ist nicht festgelegt, sondern wird gemeinsam gelernt. Daher nehmen wir keine Form mehr an (außer dasp(y|x) fällt in die Familie der Verteilungen, die durch den Diskriminator dargestellt werden können, aber theoretisch sagen wir, dass es sich ohnehin um einen universellen Funktionsapproximator handelt).

Luca Thiede
quelle