Ich schaue mir einige Vorlesungsfolien zu einem datenwissenschaftlichen Kurs an, die hier zu finden sind:
https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf
Ich kann das Video für diesen Vortrag leider nicht sehen und an einer Stelle auf der Folie hat der Vortragende den folgenden Text:
Einige Grundprinzipien
Denken Sie wie ein Bayesianer, überprüfen Sie wie ein Frequentist (Versöhnung)
Weiß jemand, was das eigentlich bedeutet? Ich habe das Gefühl, dass es einen guten Einblick in diese beiden Denkschulen gibt, der sich daraus ergibt.
Antworten:
Der Hauptunterschied zwischen der Bayes'schen und der frequentistischen Statistikschule ergibt sich aus einem Unterschied in der Interpretation der Wahrscheinlichkeit. Eine Bayes'sche Wahrscheinlichkeit ist eine Aussage über die persönliche Überzeugung, dass ein Ereignis eintreten wird (oder eingetreten ist). Eine frequentistische Wahrscheinlichkeit ist eine Aussage über den Anteil ähnlicher Ereignisse, die im Grenzfall auftreten, wenn die Anzahl dieser Ereignisse zunimmt.
"Denken wie ein Bayesianer" bedeutet für mich, Ihre persönliche Überzeugung zu aktualisieren, wenn neue Informationen auftauchen, und "überprüfen [oder sich sorgen] wie ein Frequentist" bedeutet, sich mit der Leistung statistischer Verfahren zu befassen, die über die Zeiträume hinweg aggregiert werden, in denen diese Verfahren angewendet werden. zB was ist die Abdeckung von glaubwürdigen Intervallen, was sind die Typ I / II Fehlerraten, etc.
quelle
Die Bayes'schen Statistiken fassen die Überzeugungen zusammen, wohingegen die frequentistischen Statistiken die Beweise zusammenfassen. Die Bayesianer sehen Wahrscheinlichkeit als Grad des Glaubens. Diese integrative und generative Art der Argumentation ist nützlich für die Formulierung von Hypothesen. Beispielsweise können Bayesianer der Vorstellung, dass der Mond aus grünem Käse besteht, eine willkürliche Wahrscheinlichkeit zuweisen, unabhängig davon, ob Astronauten tatsächlich dorthin gereist sind, um dies zu überprüfen. Diese Hypothese wird vielleicht durch die Vorstellung gestützt, dass der Mond aus der Ferne aussiehtwie grüner Käse. Häufige Forscher können sich weder eine Hypothese vorstellen, die mehr ist als ein Strohmann, noch können sie behaupten, dass Beweise eine Hypothese einer anderen vorziehen. Sogar die maximale Wahrscheinlichkeit erzeugt nur eine Statistik, die "am besten mit dem übereinstimmt, was beobachtet wurde". Die Bayes'sche Statistik erlaubt es uns formal, über den Tellerrand hinaus zu denken und vertretbare Ideen aus Daten vorzuschlagen. Dies ist jedoch streng genommen eine Hypothese, die in der Natur entsteht.
Häufigkeitsstatistiken werden am besten angewendet, um Hypothesen zu bestätigen. Wenn ein Experiment gut durchgeführt wird, liefern die Frequentist-Statistiken einen "unabhängigen Beobachter" oder "empirischen" Kontext für die Ergebnisse, indem sie Priors meiden. Dies steht im Einklang mit der Karl-Popper-Wissenschaftsphilosophie. Der Beweispunkt ist nicht, eine bestimmte Idee zu verbreiten. Viele Beweise stimmen mit falschen Hypothesen überein . Beweise können lediglich Überzeugungen verfälschen.
Der Einfluss von Priors wird im Allgemeinen als Verzerrung der statistischen Argumentation angesehen. Wie Sie wissen, können wir eine Vielzahl von Gründen dafür nennen, warum etwas passiert. Psychologisch glauben viele Menschen, dass unsere Beobachterbias das Ergebnis von Vorurteilen in unserem Gehirn ist, die uns davon abhalten, das, was wir sehen, wirklich zu gewichten. "Hoffnung bewölkt Beobachtung", wie die Ehrwürdige Mutter in der Düne sagte. Popper machte diese Idee rigoros.
Dies hatte eine große historische Bedeutung in einigen der größten wissenschaftlichen Experimente unserer Zeit. Zum Beispiel John Snow für die Cholera - Epidemie akribisch Beweise gesammelt und festgestellt , dass astutely Cholera wird nicht durch moralischen Entzug verursacht, und wies darauf hin , dass die Beweise mit Abwasser Kontamination sehr konsistent waren: note ihn nicht schließenDiesbezüglich gingen die Erkenntnisse von Snow der Entdeckung von Bakterien voraus und es gab kein mechanistisches oder ätiologisches Verständnis. Ein ähnlicher Diskurs findet sich in Origin of Species. Wir wussten nicht wirklich, ob der Mond aus grünem Käse bestand, bis Astronauten tatsächlich auf der Oberfläche landeten und Proben sammelten. Zu diesem Zeitpunkt haben Bayesianische Posterioren jeder anderen Möglichkeit eine sehr, sehr geringe Wahrscheinlichkeit zugewiesen, und Frequentisten können bestenfalls sagen, dass die Proben mit nichts anderem als Mondstaub in hohem Maße inkonsistent sind.
Zusammenfassend lässt sich sagen, dass die Bayes'schen Statistiken für die Erstellung von Hypothesen und die Frequentist-Statistiken für die Bestätigung von Hypothesen geeignet sind. Es ist eine der größten Herausforderungen moderner Statistiker, dafür zu sorgen, dass die Daten bei diesen Bemühungen unabhängig erfasst werden.
quelle
Plenty of evidence is consistent with incorrect hypotheses
.Per
Cliff AB
's Kommentar zum OP, es hört sich so an, als würden sie sich einer empirischen Bayes'schen Philosophie nähern. Es gibt drei wesentliche Bayes'sche Denkrichtungen, und Empirical Bayes schätzt die Prioritäten anhand von Daten, häufig mit häufigeren Methoden. Das stimmt nicht genau mit dem Zitat überein (was darauf hindeutet, dass Bayes vorne steht und hinterher häufig auftritt), aber wir sollten nichtCliff AB
den hervorragenden Kommentar von Bayes übersehen .Es gab und gibt möglicherweise auch eine Bayesianische Schule, bei der man nach einem Bayesianischen Eingriff nichts mehr überprüfen muss. Ein moderner Gedanke würde posteriore prädiktive Überprüfungen verwenden, und vielleicht bezieht sich das Zitat auf diese Art der Überprüfung Ihrer Antworten.
Auch beschäftigt sich die frequentistische Philosophie eher mit Prozeduren als mit Rückschlüssen aus Daten. Vielleicht ist das auch ein Hinweis auf die Bedeutung des Zitats.
quelle
Im Rahmen dieses datenwissenschaftlichen Unterrichts interpretiere ich "Scheck wie ein Frequentist" so, dass Sie die Leistung Ihrer Vorhersage- oder Entscheidungsfunktion anhand von durchgehaltenen Validierungsdaten bewerten. Der Rat, "wie ein Bayesianer zu denken", drückt die Meinung aus, dass eine aus einem Bayesianischen Ansatz abgeleitete Vorhersagefunktion im Allgemeinen gute Ergebnisse liefert.
quelle
Es klingt wie "denke wie ein Bayesianer, überprüfe wie ein Frequentist", bezieht sich auf den eigenen Ansatz bei der statistischen Gestaltung und Analyse. So wie ich es verstehe, beinhaltet das Bayes'sche Denken einen gewissen Glauben an frühere Situationen (experimentell oder statistisch). Nehmen wir zum Beispiel an, dass die durchschnittliche Leseleistung für Viertklässler 80 Wörter pro Minute beträgt und dass einige Eingriffe diese Zahl auf 90 Wörter pro Minute erhöhen könnten . Dies sind Überzeugungen, die auf früheren Studien und Hypothesen beruhen. Frequentistisches Denken extrapoliert die Ergebnisse (der Intervention), um Konfidenzintervalle oder andere Statistiken zu erhalten, die auf der theoretischen und praktischen Häufigkeit oder Wahrscheinlichkeit basieren, mit der diese Ergebnisse erneut auftreten (dh wie häufig). Zum Beispiel könnte der Lesewert nach dem Eingriff 91 Wörter pro Minute mit einem 95% -Konfidenzintervall von 85 bis 97 Wörtern pro Minute betragen, und ein zugehöriger p-Wert (Wahrscheinlichkeitswert) davon unterscheidet sich vom Wert vor dem Eingriff. In 95% der Fälle liegen die neuen Lesewerte nach dem Eingriff zwischen 85 und 97 Wörtern pro Minute. Deshalb "denke wie ein Bayesianer", dh theoretisiere, hypothetisiere, betrachte frühere Beweise und "überprüfe wie ein Frequentist", dh wie häufig würden diese experimentellen Ergebnisse auftreten und wie wahrscheinlich ist, dass sie darauf zurückzuführen sind eher Zufall als Intervention. Die neuen Lesewerte würden nach dem Eingriff zwischen 85 und 97 Wörtern pro Minute liegen. Deshalb "denke wie ein Bayesianer", dh theoretisiere, hypothetisiere, betrachte frühere Beweise und "überprüfe wie ein Frequentist", dh wie häufig würden diese experimentellen Ergebnisse auftreten und wie wahrscheinlich ist, dass sie darauf zurückzuführen sind eher Zufall als Intervention. Die neuen Lesewerte würden nach dem Eingriff zwischen 85 und 97 Wörtern pro Minute liegen. Deshalb "denke wie ein Bayesianer", dh theoretisiere, hypothetisiere, betrachte frühere Beweise und "überprüfe wie ein Frequentist", dh wie häufig würden diese experimentellen Ergebnisse auftreten und wie wahrscheinlich ist, dass sie darauf zurückzuführen sind eher Zufall als Intervention.
quelle