Ich bin ein einfältiger Bayesianer, der sich in der gemütlichen Welt von Bayes wohl fühlt.
Aufgrund böswilliger Kräfte, die außerhalb meiner Kontrolle liegen, muss ich jetzt Einführungskurse für Absolventen über die exotische und seltsame Welt der frequentistischen Statistik absolvieren. Einige dieser Konzepte scheinen mir sehr seltsam zu sein, und meine Lehrer kennen sich mit Bayes nicht aus. Deshalb dachte ich, ich würde im Internet Hilfe von denen bekommen, die beide verstehen.
Wie würden Sie einem Bayesianer, der Frequentismus seltsam und unangenehm findet, die verschiedenen Konzepte in der frequentistischen Statistik erklären ?
Zum Beispiel einige Dinge, die ich bereits verstehe:
- Der Maximum-Likelihood-Schätzer ist gleich dem maximalen posterioren Schätzer , wenn ist flach.argmax θp ( θ )
- (nicht ganz sicher über diese). Wenn ein bestimmter Schätzer eine ausreichende Statistik für einen Parameter ist und flach ist, dann ist , dh die Stichprobenverteilung ist gleich der Wahrscheinlichkeitsfunktion und daher gleich dem hinteren Teil des Parameters, dem ein flacher Prior gegeben ist. θp(θ)p( θ |θ)
Dies sind Beispiele für die Erklärung häufigfreier Konzepte für jemanden, der die Bayes'schen versteht.
Wie würden Sie die anderen zentralen Konzepte der frequentistischen Statistik in Begriffen erklären, die ein Bayesianer verstehen kann?
Insbesondere interessieren mich folgende Fragen:
- Welche Rolle spielt der mittlere quadratische Fehler? Wie hängt es mit den Bayes'schen Verlustfunktionen zusammen?
- In welcher Beziehung steht das Kriterium der "Unparteilichkeit" zu den Bayes'schen Kriterien? Ich weiß, dass ein Bayesianer nicht verlangen wird, dass seine Schätzer unvoreingenommen sind, aber gleichzeitig würde ein Bayesianer wahrscheinlich zustimmen, dass ein unvoreingenommener häufiger Schätzer im Allgemeinen wünschenswerter ist als ein voreingenommener häufiger Schätzer (obwohl er beide als minderwertig betrachten würde der Bayes'sche Schätzer). Wie versteht ein Bayesianer Unvoreingenommenheit?
- Wenn wir flache Prioritäten haben, stimmen die häufig auftretenden Konfidenzintervalle irgendwie mit den Bayes'schen überein?
- Was im Namen von Laplace ist mit Spezifikationstests wie dem Test los? Ist dies ein entarteter Sonderfall eines Bayes'schen Updates zur Verteilung über den Modellraum?
Allgemeiner:
Gibt es eine Ressource, die den Bayesianern den Frequentismus erklärt? Die meisten Bücher laufen umgekehrt: Sie erklären den Bayesianismus Menschen, die Erfahrung in der Statistik der Frequentisten haben.
ps. Ich habe nachgesehen, und obwohl es bereits viele Fragen zum Unterschied zwischen Bayesianismus und Frequentismus gibt, erklärt keiner den Frequentismus explizit aus der Perspektive eines Bayesianers.
Diese Frage ist verwandt, aber es geht nicht speziell darum, einem Bayesianer frequentistische Konzepte zu erklären (mehr darum, das häufig denkende Denken im Allgemeinen zu rechtfertigen).
Mein Punkt ist auch nicht, Frequentismus zu verprügeln. Ich möchte es wirklich besser verstehen
quelle
Antworten:
Tatsächlich werden viele der von Ihnen erwähnten Dinge bereits in den wichtigsten Bayes'schen Handbüchern besprochen. In vielen Fällen werden diese Handbücher durch Training für Frequentisten geschrieben, daher diskutieren sie viele Ähnlichkeiten und versuchen, die frequentistischen Methoden in Bayes'schen Boden zu übersetzen. Ein Beispiel ist die Doing Bayesian Data Analysis Buch von John K. Kruschke oder seinem Papier übersetzen -Test in Bayesian Boden. Es gibt auch einen anderen Psychologen, Eric-Jan Wagenmakers, der mit seinem Team viel darüber sprach, häufig auftretende Konzepte in Bayes'schen Boden zu übersetzen. Entscheidungstheoretische Konzepte wie Verlustfunktionen, Unhöflichkeit usw. werden im Buch The Bayesian Choice von Christian P. Robert diskutiert .t
Darüber hinaus sind einige der von Ihnen erwähnten Konzepte nicht wirklich Bayesianisch. Zum Beispiel ist die Verlustfunktion ein allgemeines Konzept und nur wenn Sie sie mit einer vorherigen Verteilung kombinieren, erhalten Sie ein Bayes-Risiko.
Erwähnenswert ist auch, dass Sie, selbst wenn Sie selbst als Bayesianer deklariert sind, wahrscheinlich bereits viele häufig verwendete Methoden anwenden. Wenn Sie beispielsweise MCMC für die Schätzung verwenden und dann den Mittelwert der MCMC-Kette als Punktschätzung berechnen, verwenden Sie einen häufigeren Schätzer, da Sie kein Bayes'sches Modell und keine Prioritäten verwenden, um die Schätzung des Mittelwerts der MCMC zu erhalten Kette.
Schließlich lassen sich einige häufig verwendete Konzepte und Werkzeuge nicht leicht auf die Bayes'sche Umgebung übertragen, oder die vorgeschlagenen "Äquivalente" sind eher Proofs of Concept, als etwas, das Sie im wirklichen Leben verwenden würden. In vielen Fällen sind die Ansätze einfach unterschiedlich und das Suchen nach Parallelen ist Zeitverschwendung.
quelle
Das ist falsch:
Darüber hinaus hat Suffizienz nichts mit Frequentismus gegenüber Bayesianismus zu tun, obwohl es spezifisch Bayes'sche Vorstellungen von Suffizienz gibt. Wie zum Beispiel im Modellvergleich .
Das Problem mit diesem Teil der Frage ist, dass Bayes'sche Schätzer auch häufig auftretende Schätzer sind, da sie häufig auftretende Eigenschaften wie Zulässigkeit oder manchmal Minimaxität erfüllen. Wie in einem kürzlich veröffentlichten Lebenslaufeintrag erläutert , können Bayes-Schätzungen unter quadratischem Fehlerverlust nicht unvoreingenommen sein . Und es gibt keinen Grund, der über die Verwendung einer speziellen Verlustfunktion hinausgeht, um Unparteilichkeit zu begünstigen: Die Minimierung eines posterioren Verlusts ist allumfassend, und wenn das Auferlegen von Unparteilichkeit zu einem höheren Verlust führt, sollte dies nicht berücksichtigt werden. (Ein letzter Punkt ist, dass es nur sehr wenige Funktionen des Parameters gibt, die unverzerrte Schätzer zulassen.)
quelle
Es scheint mir, als würden Sie eine Welt der Frequentisten und Bayesianer in Betracht ziehen. Das ist nicht sehr nuanciert. Zum Beispiel, wenn Sie der eine oder andere sein müssen oder als ob die angewandten Methoden von einigen persönlichen Überzeugungen bestimmt werden (und nicht von Bequemlichkeit und dem spezifischen Problem und den vorliegenden Informationen). Ich glaube, dass dies ein Missverständnis ist, das auf den aktuellen Trends basiert, sich selbst als Frequentist oder Bayesianer zu bezeichnen, und auch viele statistische Sprachen können verwirrend sein. Versuchen Sie einfach, eine Gruppe von Statistikern den p-Wert oder das Konfidenzintervall erklären zu lassen.
Einige klassische Werke können Ihnen helfen, häufig auftretende Schlussfolgerungen zu verstehen. Die klassischen Werke enthalten grundlegende Prinzipien, sind der Hitze der Diskussion zwischen Befürwortern nahe und liefern einen Hintergrund für die (praktische) Motivation und Relevanz zu dieser Zeit.
Außerdem wurden diese klassischen Arbeiten zu frequentistischen Methoden in einer Zeit geschrieben, in der die Menschen hauptsächlich mit Bayes'schen Prinzipien und der mathematischen Berechnung der Wahrscheinlichkeit arbeiteten (beachten Sie, dass die Statistik nicht immer so ist, als würden Sie an einem typischen mathematischen Problem mit Wahrscheinlichkeiten arbeiten, die Wahrscheinlichkeiten können es sein sehr schlecht definiert).
Die häufig auftretende Wahrscheinlichkeit ist keine inverse Wahrscheinlichkeit
"Inverse Wahrscheinlichkeit" Fisher 1930
Sie stellen sich die Wahrscheinlichkeit als Bayes'schen Ausdruck mit einem flachen Prior vor
Jedoch,
Während die Mathematik zusammenfällt (wenn sie falsch interpretiert wird, da Sie P (x | a) = P (a | x) bis zu einer Konstanten erhalten können, aber nicht dieselben Begriffe sind), ist die Konstruktion und Bedeutung unterschiedlich.
Die Wahrscheinlichkeit ist nicht als "Bayes'sche Wahrscheinlichkeit basierend auf flachen oder uniformierten Prioren" zu verstehen. Die Wahrscheinlichkeit ist nicht einmal eine Wahrscheinlichkeit und folgt nicht den Regeln der Wahrscheinlichkeitsverteilungen (zum Beispiel können Sie die Wahrscheinlichkeit für verschiedene Ereignisse nicht addieren, und das Integral ist nicht gleich eins). Dies ist nur dann der Fall, wenn Sie es mit einem flachen Prior multiplizieren. dass es eine Wahrscheinlichkeit wird, aber dann hat sich auch die Bedeutung geändert.
Einige interessante Zitate aus 'inverse Wahrscheinlichkeit' 1930 Fisher.
Bayesianische und frequentistische Methoden sind verschiedene Werkzeuge:
Beachten Sie, dass es ist eine gewisse Wahrscheinlichkeitsaussage, die eine frequentistischen Methode zur Verfügung stellt.
Siehe auch "Zum" wahrscheinlichen Fehler "eines aus einer kleinen Stichprobe abgeleiteten Korrelationskoeffizienten." Fisher 1921, in dem Fisher zeigte, dass der Unterschied seiner Methode keine Bayes'sche inverse Wahrscheinlichkeit ist.
und
das ist Wahrscheinlichkeit und Wahrscheinlichkeit. Siehe auch den Hinweis am Ende des Artikels von Fishers aus dem Jahr 1921, in dem er mehr über die Verwirrung spricht.
Beachten Sie erneut, dass die Wahrscheinlichkeit eine Funktion eines Parametersatzes ist, jedoch keine Wahrscheinlichkeitsdichtefunktion dieses Parametersatzes.
Die Wahrscheinlichkeit wird für etwas verwendet, das Sie beobachten können. ZB die Wahrscheinlichkeit, dass ein Würfel sechs würfelt. Die Wahrscheinlichkeit wird für etwas verwendet, das Sie nicht beobachten können, z. B. die Hypothese, dass ein Würfel sechs 1/6 der Zeit würfelt.
Vielleicht gefällt Ihnen auch Fischers Arbeit, in der er in seiner Meinung zum Bayes-Theorem viel leichter ist (er beschreibt immer noch die Unterschiede). "Auf den mathematischen Grundlagen der theoretischen Statistik" Fisher 1922 (insbesondere Abschnitt 6 "Formale Lösung des Schätzproblems")
Mehr
Wenn Sie die Kommentare von Fisher zum Unterschied zwischen der inversen Wahrscheinlichkeit und dem Wahrscheinlichkeitsprinzip verstehen und schätzen können, möchten Sie möglicherweise die Unterschiede innerhalb der frequentistischen Methoden weiter lesen.
"Überblick über eine Theorie der statistischen Schätzung basierend auf der klassischen Wahrscheinlichkeitstheorie" Neyman 1937
Das ist eine Arbeit von 50 Seiten und schwer zusammenzufassen. Aber es handelt sich um Ihre Fragen über un Bias schuldung, erklärt die Methode der kleinsten Quadrate (und Differenz mit der Methode der maximalen Wahrscheinlichkeit), und sieht insbesondere eine Behandlung von Konfidenzintervall (frequentistischen Intervall sind bereits nicht ähnlich, einzigartig, geschweige denn , dass das sind das gleiche wie Bayes'sche Intervalle für flache Prioren).
In Bezug auf den F-Test ist nicht klar, was im Namen von Laplace Ihrer Meinung nach falsch ist. Wenn Sie eine frühzeitige Verwendung wünschen, können Sie in 'Studien zur Variation der Kulturpflanzen nachsehen . II. Die manuriale Reaktion verschiedener Kartoffelsorten von Fisher und Mackenzie aus dem Jahr 1923
Diese Arbeit hat den Ausdruck von Anova in einem erkennbaren linearen Modell, das die Quadratsummen in zwischen und innerhalb von Gruppen unterteilt.
quelle