Ich habe versucht, die Bayes'schen Statistiken neu zu lernen (jedes Mal, wenn ich dachte, ich hätte sie endlich bekommen, taucht etwas anderes auf, das ich vorher nicht in Betracht gezogen habe ...), aber es war (für mich) nicht klar, wie der Datengenerierungsprozess ablief im Bayesianischen Rahmen ist eigentlich.
Der frequentistische Rahmen ist mir klar. Es gibt einige "wahre" Parameter und dieser Parameter generiert die Daten gemäß der Verteilung, die er parametrisiert.
In der Bayes'schen Einstellung modellieren wir den Parameter jedoch als Zufallsvariable. Dieser Teil verwirrt mich nicht. Es ist sinnvoll, weil ein Bayesianer diese Wahrscheinlichkeit als Unsicherheit in seinen eigenen Überzeugungen interpretiert. Sie können nicht wiederholbaren Ereignissen eine Wahrscheinlichkeit zuweisen. Die Art und Weise, wie ich "Bayesianismus" interpretierte, war, dass es glaubt, dass es einige Parameter gibt, die die Daten erzeugen. Es ist definitiv unbekannt, aber dennoch festgelegt, sobald es von "Natur" entschieden wurde (und vielleicht hat die Natur zufällig entschieden, was es angenommen wurde sein). Trotzdem ist es behoben und daher war die Erstellung ein "nicht wiederholbares Ereignis". Obwohl es nicht wiederholbar war, versuchen wir nur, unseren eigenen Glauben an θ zu aktualisierengegebenen Daten. Daher könnten die Daten durch einen der Parameter generiert worden sein, die von unserer Wahrscheinlichkeitsverteilung (vorher) berücksichtigt wurden, aber dennoch ist der Parameter fest und unbekannt. Wir fügen ihm nur einen Wahrscheinlichkeitswert hinzu.
Aus dieser Sicht ist es für mich sinnvoll anzunehmen, dass der Datengenerierungsprozess nahezu identisch mit dem des Frequentisten ist. "Natur" wählt den Parameter Verwendung der "wahren" "vorherigen" Verteilung P ∗ ( θ ) aus und sobald die Zufallsvariable ihre "wahre" (aber feste) Realisierung erreicht hat, beginnt sie, die beobachteten Daten zu erzeugen.
Ist dies die Standardmethode zur Interpretation des Datengenerierungsprozesses im Bayes'schen Rahmen?
Die Hauptsache meiner Ansicht ist, dass der Parameter definitiv festgelegt ist (als Realisierung eines rv angesehen) und die Daten gemäß θ erzeugt . Ein weiterer sehr wichtiger Punkt meiner Ansicht nach ist daher, dass unser Prior für mich nur eine quantifizierbare Möglichkeit ist, unsere Unsicherheit über das feste (und nicht wiederholbare) Ereignis der Erzeugung des Parameters θ auszudrücken . Interpretieren die Leute so das vorherige P ( θ ) ?
Humorvolle Randnotiz:
Ich wünschte, ich könnte einfach "Nature" fragen, wie sie es macht und dies ein für alle Mal regeln ... lol.
quelle
Antworten:
Es ist ziemlich einfach: Es gibt keine Unterschiede zwischen Bayesianern und Frequentisten hinsichtlich der Idee des datengenerierenden Modells.
Um dies zu verstehen, betrachten Sie zunächst, dass das datengenerierende Modell in der Wahrscheinlichkeit mathematisch codiert ist, was die Grundlage für die Schlussfolgerung von Bayesianern und Frequentisten gleichermaßen ist. Und es gibt keinen Unterschied zwischen einer Bayes'schen und einer frequentistischen Wahrscheinlichkeit.
Nun könnte man sagen: Das bedeutet nicht, dass die Bayesianer glauben, dass die Parameter des Datengenerierungsprozesses festgelegt sind. Sicher, aber wirklich, es macht wenig Sinn, anders zu denken - was wäre der Sinn der Schätzung einer Menge, die nicht festgelegt ist? Was würde das überhaupt mathematisch bedeuten? Natürlich kann es sein, dass Sie eine Menge haben, die kein Wert, sondern eine Verteilung ist. Aber dann schätzen Sie die Verteilung, damit sie wieder behoben wird.
Der wahre Unterschied besteht, wie @ Xi'an sagt, nicht in der Annahme, wie unsere Daten generiert werden, sondern in der Schlussfolgerung. Also, wenn du sagst
Ich würde nicht zustimmen - wir modellieren unser Wissen / unsere Unsicherheit über den wahren Parameter als Zufallsvariable - das ist der subtile, aber wichtige Unterschied - wir behandeln den Parameter als Zufallsvariablen, um unsere Unsicherheit über ihren "wahren" Wert zu untersuchen.
quelle
Die Seiten 3 und 4 von BDA von Gelman et al., 3. Aufl., Leuchten auf. Die Bayes'sche Statistik zielt darauf ab, mithilfe von Wahrscheinlichkeitsmodellen für beobachtbare und nicht beobachtbare Größen Rückschlüsse auf Daten zu ziehen. Wir bezeichnen die nicht beobachtbaren Größen als Parameter, auch wenn die Unterscheidung nicht immer eindeutig ist. In der Bayes'schen Statistik wird jede Unsicherheit über die am Modell beteiligten Variablen mit der Wahrscheinlichkeit dargestellt. Daher müssen wir ein vollständiges Wahrscheinlichkeitsmodell einrichten, dh eine gemeinsame Wahrscheinlichkeit für alleVariablen, die an unserem Problem beteiligt sind, sowohl beobachtbare als auch nicht beobachtbare, dh Parameter. Dies bedeutet, dass wir Zufallsvariablen verwenden, um beide darzustellen. Dies bedeutet nicht, dass wir glauben, dass der Parameter zufällig ist: Es bedeutet einfach, dass unser Wissen über den tatsächlichen Wert der Parameter begrenzt ist, und wir repräsentieren das begrenzte Wissen, das wir haben, bevor wir Daten durch die vorherige Wahrscheinlichkeitsverteilung beobachten. Wir beobachten dann Daten und Bedingungen für die beobachteten Daten unter Verwendung eines Modells für den Datenerzeugungsprozess (der zu einer bestimmten Wahrscheinlichkeitsfunktion führt) und der Bayes-Regel, um eine hintere Wahrscheinlichkeitsverteilung zu erhalten, die die verbleibende Unsicherheit in unserem Wissen über die Daten quantifiziert nicht beobachtbare Mengen.
Mit anderen Worten, wir verwenden Zufallsvariablen für Parameter, nicht weil wir glauben, dass es keine wahren Parameter gibt, sondern weil wir nur begrenzte Kenntnisse darüber haben, was sich nach Beobachtung der Daten für die messbaren Variablen verbessert, aber nicht vollständig verschwindet. Tatsächlich gibt es technische Bedingungen, unter denen die posteriore Verteilung zu einem Dirac-Delta tendiert (daher wird die Zufallsvariable, die zur Darstellung des Parameters verwendet wird, entartet), und zwar in der Grenze für die Anzahl der Beobachtungen, die auf 0 geht. Wenn es keine gab "wahrer" Wert für den Parameter, dies würde nicht viel Sinn machen. Nun, diese Bedingungen sind sicherlich nicht immer gültig, aber in vielen Standard-Bayes'schen Analysen (auch wenn nicht allen) zweifeln wir nicht an der Existenz eines wahren Modells und an wahren oder festen Werten für die nicht beobachtbaren Werte.
quelle
Nein, dies ist nicht die Standardinterpretation. Tatsächlich haben Sie in Ihrer Frage bereits die "subjektive" Interpretation der Wahrscheinlichkeit erkannt , die die Standardgrundlage der Bayes'schen Statistik darstellt. Bei der "subjektivistischen" Interpretation (genauer gesagt "epistemische" Interpretation) werden die vorherigen und hinteren Wahrscheinlichkeitsverteilungen für die Parameter verwendet, um die Unsicherheit des Benutzers über die unbekannten Parameter im Modell darzustellen. Unter dieser Darstellung gibt es keine Annahme eines entsprechenden metaphysischen Prozesses in der Natur oder einer Zufälligkeit in der Natur. In der Tat liefert das Bayes'sche Paradigma nach dieser Auffassung überhaupt keine Theorieüber den "Datenerzeugungsprozess" der Natur; es gibt uns lediglich eine mathematische Möglichkeit, unsere Unsicherheit über Dinge in der Natur zu modellieren und somit eine inferentielle und prädiktive Theorie zu bilden .
Ihre letztere Beschreibung ist ein Beispiel für die Neigungstheorie der Wahrscheinlichkeit , die besagt, dass es in der Natur einen metaphysischen Prozess gibt, der analog zur Wahrscheinlichkeitsrechnung ist. Diese Interpretation der Wahrscheinlichkeit setzt voraus, dass in der Natur eine gewisse metaphysische "Neigung" besteht, dass Ergebnisse nach den Wahrscheinlichkeitsgesetzen zufällig auftreten. Wie bei den meisten Bayesianern habe ich die Neigungsberichte immer als etwas albern empfunden. Es ist wirklich ein Beispiel für die Neigung des Menschen, unsere eigenen Denkweisen auf die Natur zu projizieren und anzunehmen, dass es in der Natur Analoga zu unseren erkenntnistheoretischen Methoden und Konstrukten gibt. (Als solche ist die "Neigungsinterpretation" eher eine Neigungstheorie des Menschen als eine der Wahrscheinlichkeit!)
Nun könnten Sie sich entscheiden, die subjektivistische Interpretation der Wahrscheinlichkeit zu übernehmen, oder Sie könnten mit mir nicht einverstanden sein und sich entscheiden, die Neigungsinterpretation zu übernehmen. Unabhängig davon werden Sie in ein schreckliches Chaos geraten, wenn Sie zwischen diesen beiden unterschiedlichen Interpretationen unterscheiden. Das ist es wahrscheinlich, was Ihnen im Moment Schwierigkeiten bereitet.
quelle
Die Daten in einer Bayes'schen Ansicht werden vom 'wahren System' generiert - das Sie niemals richtig modellieren können. Daher kann ein zugrunde liegender wahrer Parameter Ihres angenommenen Modells nicht existieren.
quelle