Einführung in die frequentistische Statistik für Bayesianer [geschlossen]

8

Ich bin ein einfältiger Bayesianer, der sich in der gemütlichen Welt von Bayes wohl fühlt.

Aufgrund böswilliger Kräfte, die außerhalb meiner Kontrolle liegen, muss ich jetzt Einführungskurse für Absolventen über die exotische und seltsame Welt der frequentistischen Statistik absolvieren. Einige dieser Konzepte scheinen mir sehr seltsam zu sein, und meine Lehrer kennen sich mit Bayes nicht aus. Deshalb dachte ich, ich würde im Internet Hilfe von denen bekommen, die beide verstehen.

Wie würden Sie einem Bayesianer, der Frequentismus seltsam und unangenehm findet, die verschiedenen Konzepte in der frequentistischen Statistik erklären ?

Zum Beispiel einige Dinge, die ich bereits verstehe:

  • Der Maximum-Likelihood-Schätzer ist gleich dem maximalen posterioren Schätzer , wenn ist flach.argmax θArgmaxθp(D.|θ)p ( θ )Argmaxθp(θ|D.)p(θ)
  • (nicht ganz sicher über diese). Wenn ein bestimmter Schätzer eine ausreichende Statistik für einen Parameter ist und flach ist, dann ist , dh die Stichprobenverteilung ist gleich der Wahrscheinlichkeitsfunktion und daher gleich dem hinteren Teil des Parameters, dem ein flacher Prior gegeben ist. θp(θ)p( θ |θ)θ^θp(θ)p(θ^|θ)=c1p(D.|θ)=c1c2p(θ|D.)

Dies sind Beispiele für die Erklärung häufigfreier Konzepte für jemanden, der die Bayes'schen versteht.

Wie würden Sie die anderen zentralen Konzepte der frequentistischen Statistik in Begriffen erklären, die ein Bayesianer verstehen kann?

Insbesondere interessieren mich folgende Fragen:

  • Welche Rolle spielt der mittlere quadratische Fehler? Wie hängt es mit den Bayes'schen Verlustfunktionen zusammen?
  • In welcher Beziehung steht das Kriterium der "Unparteilichkeit" zu den Bayes'schen Kriterien? Ich weiß, dass ein Bayesianer nicht verlangen wird, dass seine Schätzer unvoreingenommen sind, aber gleichzeitig würde ein Bayesianer wahrscheinlich zustimmen, dass ein unvoreingenommener häufiger Schätzer im Allgemeinen wünschenswerter ist als ein voreingenommener häufiger Schätzer (obwohl er beide als minderwertig betrachten würde der Bayes'sche Schätzer). Wie versteht ein Bayesianer Unvoreingenommenheit?
  • Wenn wir flache Prioritäten haben, stimmen die häufig auftretenden Konfidenzintervalle irgendwie mit den Bayes'schen überein?
  • Was im Namen von Laplace ist mit Spezifikationstests wie dem Test los? Ist dies ein entarteter Sonderfall eines Bayes'schen Updates zur Verteilung über den Modellraum?F.

Allgemeiner:

Gibt es eine Ressource, die den Bayesianern den Frequentismus erklärt? Die meisten Bücher laufen umgekehrt: Sie erklären den Bayesianismus Menschen, die Erfahrung in der Statistik der Frequentisten haben.


ps. Ich habe nachgesehen, und obwohl es bereits viele Fragen zum Unterschied zwischen Bayesianismus und Frequentismus gibt, erklärt keiner den Frequentismus explizit aus der Perspektive eines Bayesianers.

Diese Frage ist verwandt, aber es geht nicht speziell darum, einem Bayesianer frequentistische Konzepte zu erklären (mehr darum, das häufig denkende Denken im Allgemeinen zu rechtfertigen).

Mein Punkt ist auch nicht, Frequentismus zu verprügeln. Ich möchte es wirklich besser verstehen

user56834
quelle
2
Dies mag eine berechtigte Frage sein, aber sie klingt in dieser Form zu weit gefasst, da Sie uns anscheinend bitten, jede mögliche frequentistische Methode in die Bayes'sche Form zu übersetzen - man könnte ein Buch zu diesem Thema schreiben! Die meisten einführenden Bayes'schen Handbücher (z. B. Kruschke) behandeln diese Themen, da sie sich an Frequentisten richten. Darüber hinaus verwenden Sie wahrscheinlich bereits viele häufig verwendete Tools (z. B. zur Diagnose Ihrer MCMC-Ketten). Einige der Themen, die Sie erwähnen, sind nicht rein bayesianisch (Verlustfunktion). Könnten Sie versuchen, Ihre Frage zu bearbeiten, um sie genauer zu gestalten?
Tim
2
Ich sympathisiere und schätze die Frage. Wenn Sie neben der Literatur auch an Erkenntnissen der Community zu bestimmten Fragen interessiert sind, empfehlen wir Ihnen, diese zu teilen. Viele von ihnen klingen sehr interessant. Ich muss zugeben, dass ich mir einige dieser Fragen mit gemischtem Erfolg gestellt habe.
Benoit Sanchez
6
Diese Frage ließ mich zusammenzucken und denken, dass die Statistikausbildung kaputt ist. Wie jemand es geschafft hat, grundlegende Statistiken ohne den Begriff der Voreingenommenheit durchzugehen, ist verwirrend. Ebenso ist die Tatsache, dass ein Schüler seine Pädagogen nicht " in Bayes versiert " findet, so dass sie einem "Bayesianer" "Frequentist Stats" nicht angemessen erklären können, weiß ich nicht ... umständlich ? (Ich stimme nicht ab oder so, ich finde es gut, dass das OP fragt und die Antwort von TIm unten sehr vernünftig ist (+1), aber wirklich ... die Frage hat mich beunruhigt, dass etwas in diesem Zusammenhang grundlegend falsch ist.)
usεr11852
4
Sie werden das Klettern nicht wirklich verstehen, wenn Sie sich zwingen, es wie vertikales Schwimmen zu sehen.
David Ernst
1
Machen Sie dann einen einfachen T-Test, er berechnet keinen Posterior, weil er explizit keinen Prior auswählen möchte. Wie finden Sie ein Bayes'sches Äquivalent zur Vermeidung von Bayes? Mit MLE haben Sie die eine Technik gefunden, mit der Sie leicht ein Bayes'sches Äquivalent identifizieren können, da dies im Grunde schon eine Bayes'sche Technik ist, außer im Namen.
David Ernst

Antworten:

14

Tatsächlich werden viele der von Ihnen erwähnten Dinge bereits in den wichtigsten Bayes'schen Handbüchern besprochen. In vielen Fällen werden diese Handbücher durch Training für Frequentisten geschrieben, daher diskutieren sie viele Ähnlichkeiten und versuchen, die frequentistischen Methoden in Bayes'schen Boden zu übersetzen. Ein Beispiel ist die Doing Bayesian Data Analysis Buch von John K. Kruschke oder seinem Papier übersetzen -Test in Bayesian Boden. Es gibt auch einen anderen Psychologen, Eric-Jan Wagenmakers, der mit seinem Team viel darüber sprach, häufig auftretende Konzepte in Bayes'schen Boden zu übersetzen. Entscheidungstheoretische Konzepte wie Verlustfunktionen, Unhöflichkeit usw. werden im Buch The Bayesian Choice von Christian P. Robert diskutiert .t

Darüber hinaus sind einige der von Ihnen erwähnten Konzepte nicht wirklich Bayesianisch. Zum Beispiel ist die Verlustfunktion ein allgemeines Konzept und nur wenn Sie sie mit einer vorherigen Verteilung kombinieren, erhalten Sie ein Bayes-Risiko.

Erwähnenswert ist auch, dass Sie, selbst wenn Sie selbst als Bayesianer deklariert sind, wahrscheinlich bereits viele häufig verwendete Methoden anwenden. Wenn Sie beispielsweise MCMC für die Schätzung verwenden und dann den Mittelwert der MCMC-Kette als Punktschätzung berechnen, verwenden Sie einen häufigeren Schätzer, da Sie kein Bayes'sches Modell und keine Prioritäten verwenden, um die Schätzung des Mittelwerts der MCMC zu erhalten Kette.

Schließlich lassen sich einige häufig verwendete Konzepte und Werkzeuge nicht leicht auf die Bayes'sche Umgebung übertragen, oder die vorgeschlagenen "Äquivalente" sind eher Proofs of Concept, als etwas, das Sie im wirklichen Leben verwenden würden. In vielen Fällen sind die Ansätze einfach unterschiedlich und das Suchen nach Parallelen ist Zeitverschwendung.

Tim
quelle
2
(+1): sehr gute Punkte!
Xi'an
Sie könnten diesen Blog interessant finden: errorstatistics.com
kjetil b halvorsen
3

θ^̂θp(θ)p(θ^̂|θ)=p(D.|θ)=cp(θ|D.)

Das ist falsch:

  1. p(D.|θ)=p(θ^̂|θ)×p(D.|θ^)θ^
  2. p(D.|θ)=cp(θ|D.)D.θ
  3. θ^D.

Darüber hinaus hat Suffizienz nichts mit Frequentismus gegenüber Bayesianismus zu tun, obwohl es spezifisch Bayes'sche Vorstellungen von Suffizienz gibt. Wie zum Beispiel im Modellvergleich .

Ein Bayesianer würde wahrscheinlich zustimmen, dass ein unvoreingenommener frequentistischer Schätzer im Allgemeinen wünschenswerter ist als ein voreingenommener frequentistischer Schätzer

Das Problem mit diesem Teil der Frage ist, dass Bayes'sche Schätzer auch häufig auftretende Schätzer sind, da sie häufig auftretende Eigenschaften wie Zulässigkeit oder manchmal Minimaxität erfüllen. Wie in einem kürzlich veröffentlichten Lebenslaufeintrag erläutert , können Bayes-Schätzungen unter quadratischem Fehlerverlust nicht unvoreingenommen sein . Und es gibt keinen Grund, der über die Verwendung einer speziellen Verlustfunktion hinausgeht, um Unparteilichkeit zu begünstigen: Die Minimierung eines posterioren Verlusts ist allumfassend, und wenn das Auferlegen von Unparteilichkeit zu einem höheren Verlust führt, sollte dies nicht berücksichtigt werden. (Ein letzter Punkt ist, dass es nur sehr wenige Funktionen des Parameters gibt, die unverzerrte Schätzer zulassen.)

Xi'an
quelle
Nur um dies zu verdeutlichen, war dieser Punkt kein Versuch, das Konzept der Suffizienz mit dem Bayesianismus zu verbinden, sondern das Konzept der Stichprobenverteilungen mit posterioren Verteilungen zu verbinden. Die Konzepte der Hinlänglichkeit von Frequentismus und Bayesianismus sind gleichwertig, was durch einfache Anwendung der Bayes-Regel gesehen werden kann. Aber ich werde Ihren Beitrag studieren und versuchen, dies besser zu verstehen.
user56834
2

Es scheint mir, als würden Sie eine Welt der Frequentisten und Bayesianer in Betracht ziehen. Das ist nicht sehr nuanciert. Zum Beispiel, wenn Sie der eine oder andere sein müssen oder als ob die angewandten Methoden von einigen persönlichen Überzeugungen bestimmt werden (und nicht von Bequemlichkeit und dem spezifischen Problem und den vorliegenden Informationen). Ich glaube, dass dies ein Missverständnis ist, das auf den aktuellen Trends basiert, sich selbst als Frequentist oder Bayesianer zu bezeichnen, und auch viele statistische Sprachen können verwirrend sein. Versuchen Sie einfach, eine Gruppe von Statistikern den p-Wert oder das Konfidenzintervall erklären zu lassen.

Einige klassische Werke können Ihnen helfen, häufig auftretende Schlussfolgerungen zu verstehen. Die klassischen Werke enthalten grundlegende Prinzipien, sind der Hitze der Diskussion zwischen Befürwortern nahe und liefern einen Hintergrund für die (praktische) Motivation und Relevanz zu dieser Zeit.

Außerdem wurden diese klassischen Arbeiten zu frequentistischen Methoden in einer Zeit geschrieben, in der die Menschen hauptsächlich mit Bayes'schen Prinzipien und der mathematischen Berechnung der Wahrscheinlichkeit arbeiteten (beachten Sie, dass die Statistik nicht immer so ist, als würden Sie an einem typischen mathematischen Problem mit Wahrscheinlichkeiten arbeiten, die Wahrscheinlichkeiten können es sein sehr schlecht definiert).

Die häufig auftretende Wahrscheinlichkeit ist keine inverse Wahrscheinlichkeit

"Inverse Wahrscheinlichkeit" Fisher 1930

Sie stellen sich die Wahrscheinlichkeit als Bayes'schen Ausdruck mit einem flachen Prior vor

Jedoch,

  1. Während die Mathematik zusammenfällt (wenn sie falsch interpretiert wird, da Sie P (x | a) = P (a | x) bis zu einer Konstanten erhalten können, aber nicht dieselben Begriffe sind), ist die Konstruktion und Bedeutung unterschiedlich.

  2. Die Wahrscheinlichkeit ist nicht als "Bayes'sche Wahrscheinlichkeit basierend auf flachen oder uniformierten Prioren" zu verstehen. Die Wahrscheinlichkeit ist nicht einmal eine Wahrscheinlichkeit und folgt nicht den Regeln der Wahrscheinlichkeitsverteilungen (zum Beispiel können Sie die Wahrscheinlichkeit für verschiedene Ereignisse nicht addieren, und das Integral ist nicht gleich eins). Dies ist nur dann der Fall, wenn Sie es mit einem flachen Prior multiplizieren. dass es eine Wahrscheinlichkeit wird, aber dann hat sich auch die Bedeutung geändert.

Einige interessante Zitate aus 'inverse Wahrscheinlichkeit' 1930 Fisher.

Bayesianische und frequentistische Methoden sind verschiedene Werkzeuge:

... gibt es zwei verschiedene Maßstäbe rationalen Glaubens, die für verschiedene Fälle geeignet sind. Wenn wir die Population kennen, können wir unsere unvollständige Kenntnis oder Erwartung der Stichprobe in Bezug auf die Wahrscheinlichkeit ausdrücken. Wenn wir die Stichprobe kennen, können wir unser unvollständiges Wissen über die Bevölkerung in Bezug auf die Wahrscheinlichkeit ausdrücken. Wir können die relative Wahrscheinlichkeit angeben, dass eine unbekannte Korrelation + 0,6 beträgt, aber nicht die Wahrscheinlichkeit, dass sie im Bereich von 0,595 bis 0,605 liegt.

Beachten Sie, dass es ist eine gewisse Wahrscheinlichkeitsaussage, die eine frequentistischen Methode zur Verfügung stellt.

θθθ

  • Eine frequentistische Methode gibt eine Aussage über die Wahrscheinlichkeit ab, dass ein Experiment (mit zufälligem Intervall) den wahren Wert eines (möglicherweise zufälligen) Parameters innerhalb des durch eine Statistik angegebenen Intervalls hat.
  • Dies ist nicht zu verwechseln mit der Wahrscheinlichkeit, dass ein bestimmtes Experiment (mit festem Intervall) den wahren Wert des (festen) Parameters innerhalb des durch die Statistik angegebenen Intervalls hat.

Siehe auch "Zum" wahrscheinlichen Fehler "eines aus einer kleinen Stichprobe abgeleiteten Korrelationskoeffizienten." Fisher 1921, in dem Fisher zeigte, dass der Unterschied seiner Methode keine Bayes'sche inverse Wahrscheinlichkeit ist.

In der früheren Arbeit wurde durch Anwendung einer zuvor entwickelten Methode festgestellt, dass der << wahrscheinlichste >> Wert der Korrelation der Population numerisch geringfügig kleiner als der der Stichprobe war. Diese Schlussfolgerung wurde in Biometrica nachteilig kritisiert , anscheinend unter der falschen Annahme, dass ich sie aus dem Bayes-Theorem abgeleitet hatte . In diesem Artikel wird gezeigt, dass, wenn die Abtastkurven ungefähr normal gerendert werden, die von mir vorgeschlagene Korrektur gleich dem Abstand zwischen dem Populationswert und dem Mittelpunkt der Abtastkurve ist und dementsprechend nicht mehr als die Korrektur von a ist durch die Berechnungsmethode eingeführte konstante Vorspannung. Es handelt sich nicht um eine Annahme von vornherein.

und

... zwei radikal unterschiedliche Konzepte wurden unter dem Namen << Wahrscheinlichkeit >> verwechselt ...

das ist Wahrscheinlichkeit und Wahrscheinlichkeit. Siehe auch den Hinweis am Ende des Artikels von Fishers aus dem Jahr 1921, in dem er mehr über die Verwirrung spricht.

Beachten Sie erneut, dass die Wahrscheinlichkeit eine Funktion eines Parametersatzes ist, jedoch keine Wahrscheinlichkeitsdichtefunktion dieses Parametersatzes.

Die Wahrscheinlichkeit wird für etwas verwendet, das Sie beobachten können. ZB die Wahrscheinlichkeit, dass ein Würfel sechs würfelt. Die Wahrscheinlichkeit wird für etwas verwendet, das Sie nicht beobachten können, z. B. die Hypothese, dass ein Würfel sechs 1/6 der Zeit würfelt.

Vielleicht gefällt Ihnen auch Fischers Arbeit, in der er in seiner Meinung zum Bayes-Theorem viel leichter ist (er beschreibt immer noch die Unterschiede). "Auf den mathematischen Grundlagen der theoretischen Statistik" Fisher 1922 (insbesondere Abschnitt 6 "Formale Lösung des Schätzproblems")

Mehr

Wenn Sie die Kommentare von Fisher zum Unterschied zwischen der inversen Wahrscheinlichkeit und dem Wahrscheinlichkeitsprinzip verstehen und schätzen können, möchten Sie möglicherweise die Unterschiede innerhalb der frequentistischen Methoden weiter lesen.

"Überblick über eine Theorie der statistischen Schätzung basierend auf der klassischen Wahrscheinlichkeitstheorie" Neyman 1937

Das ist eine Arbeit von 50 Seiten und schwer zusammenzufassen. Aber es handelt sich um Ihre Fragen über un Bias schuldung, erklärt die Methode der kleinsten Quadrate (und Differenz mit der Methode der maximalen Wahrscheinlichkeit), und sieht insbesondere eine Behandlung von Konfidenzintervall (frequentistischen Intervall sind bereits nicht ähnlich, einzigartig, geschweige denn , dass das sind das gleiche wie Bayes'sche Intervalle für flache Prioren).

In Bezug auf den F-Test ist nicht klar, was im Namen von Laplace Ihrer Meinung nach falsch ist. Wenn Sie eine frühzeitige Verwendung wünschen, können Sie in 'Studien zur Variation der Kulturpflanzen nachsehen . II. Die manuriale Reaktion verschiedener Kartoffelsorten von Fisher und Mackenzie aus dem Jahr 1923

Diese Arbeit hat den Ausdruck von Anova in einem erkennbaren linearen Modell, das die Quadratsummen in zwischen und innerhalb von Gruppen unterteilt.

12d1+12d2

Sextus Empiricus
quelle