Wenn ich das richtig verstehe, ist in der Bayes'schen Statistik ein Parameter eine Zufallsvariable. Bei der Schätzung des Parameters wird eine vorherige Verteilung mit den Daten kombiniert, um eine hintere Verteilung zu erhalten.
Frage:
- Wird jeder Datenpunkt (sowohl in der Stichprobe als auch in der Grundgesamtheit) durch dieselbe Realisierung des Parameters erzeugt?
- Wenn ja, warum sollte mir die Verteilung (dh andere mögliche Realisierungen und ihre jeweiligen Wahrscheinlichkeitsmassen oder Wahrscheinlichkeitsdichtewerte) des Parameters wichtig sein? Schließlich versuche ich, aus der Stichprobe und dem Prior etwas über diese bestimmte Population herauszufinden .
- Wenn nicht, wie spiegelt sich dies, wenn überhaupt, in den Formeln der Bayes'schen Parameterschätzung wider?
Gleichzeitig verstehe ich, dass meine Überzeugungen, ob anfänglich (vom Prior reflektiert) oder aktualisiert (vom Posterior reflektiert), als Verteilung kommen, und ich habe damit kein Problem. Aber ich frage mich, ob / warum ich annehmen sollte, dass der Parameter selbst eine Zufallsvariable ist.
Bearbeiten: Ich habe ein paar Antworten erhalten, die hilfreich sind, aber ich würde mich über eine oder mehrere freuen, die mehr auf den Punkt bringen.
Antworten:
In der Frequentist-Statistik gehen wir davon aus, dass wir vor dem Anzeigen der Daten nichts über die interessierenden Parameter wissen.
In der Bayes'schen Statistik lockern wir diese Annahme, indem wir anerkennen, dass wir möglicherweise etwas über die möglichen Werte der interessierenden Parameter wissen, bevor wir die Daten sehen - zum Beispiel, wie wahrscheinlich es ist, dass der Parameter Werte in einem bestimmten Bereich annimmt . Nachdem wir die Daten gesehen haben, können wir dieses Vorwissen verfeinern / aktualisieren. Die vorherige Verteilung (en) der interessierenden Parameter (e) kapseln also unser Wissen / unsere Überzeugung über die möglichen Werte dieser (dieser) Parameter (s), bevor die Daten angezeigt werden, während die entsprechenden hinteren Verteilungen dieses Wissen / diese Überzeugung verfeinern Eingabe aus den Daten.
Sowohl die frequentistische als auch die Bayes'sche Statistik gehen davon aus, dass ein Parameter eine unbekannte Größe ist, die geschätzt werden muss. Sie unterscheiden sich jedoch in Bezug auf die für die Schätzung dieser Menge erforderlichen Eingaben: Daten nur für häufig auftretende Statistiken im Vergleich zu Vorkenntnissen / Überzeugungen sowie Daten für Bayes'sche Statistiken.
Wenn Bayesianer den Mittelwert / Median / Modus einer posterioren Verteilung für einen bestimmten Parameter angeben, tun sie dies, weil sie glauben, dass dies der wahrscheinlichste Wert des Parameters ist (dh eine unbekannte zu schätzende Größe). Der Parameter ist jedoch unbekannt, sodass ein Maß für die Unsicherheit um diesen wahrscheinlichsten Wert (z. B. ein glaubwürdiges Intervall von 95%) einen Eindruck davon vermittelt, wo der wahre Wert des Parameters leben kann.
Als Frequentist, der sich dem Bayes'schen Feld nähert, fand ich es hilfreich, den Parameter als etwas Unbekanntes zu betrachten, das wir zu schätzen versuchen, und die vorherigen und hinteren Verteilungen als Werkzeuge, um unseren Wissens- / Glaubenszustand über diese unbekannte Entität vor und nach dem Sehen zusammenzufassen die Daten jeweils.
Während Frequentisten den harten Ansatz verfolgen, dass wir nichts über die unbekannte Entität wissen, der wir nachjagen, verfolgen die Bayesianer einen realistischeren und differenzierteren Ansatz, bei dem wir möglicherweise tatsächlich etwas wissen und uns verbessern werden, sobald wir die Daten sehen auf diesem Wissen.
Daher kümmern wir uns um Verteilungen im Bayes'schen Kontext, da sie geeignete Mittel sind, um den aktuellen Wissens- / Glaubensstand (für frühere Verteilungen) und den hoffentlich verbesserten Wissens- / Glaubenszustand auszudrücken, der nach dem Betrachten der Daten (für hintere Verteilungen) erreicht wurde.
Nachtrag:
Persönlich stimme ich der Ansicht zu, die Sander Greenland in dem Artikel Bayesianische Perspektiven für die epidemiologische Forschung so eloquent festgehalten hat : I. Grundlagen und grundlegende Methoden , International Journal of Epidemiology, Band 35, Ausgabe 3, 1. Juni 2006, Seiten 765–775 (welche ist verfügbar unter https://academic.oup.com/ije/article/35/3/765/735529 ):
" Es wird oft (fälschlicherweise) gesagt, dass 'Parameter vom Frequentisten als fest, aber vom Bayesianer als zufällig behandelt werden'. Für Frequentisten und Bayesianer gleichermaßen kann der Wert eines Parameters von Anfang an festgelegt oder von generiert worden sein In beiden Fällen nehmen beide an, dass er einen festen Wert angenommen hat, den wir gerne wissen würden. Der Bayesianer verwendet formale Wahrscheinlichkeitsmodelle, um die persönliche Unsicherheit über diesen Wert auszudrücken. Die 'Zufälligkeit' in diesen Modellen repräsentiert die persönliche Unsicherheit über der Wert des Parameters; er ist keine Eigenschaft des Parameters (obwohl wir hoffen sollten, dass er die Eigenschaften der Mechanismen, die den Parameter erzeugt haben, genau widerspiegelt). "
Weitere Überlegungen zu diesem Thema finden Sie unter http://thestatsgeek.com/2015/04/22/bayesian-inference-are-parameters-fixed-or-random/ .
quelle
Ihre Frage spiegelt die Bayes'sche Beschwerde wider, dass häufig auftretende Methoden gegen das Wahrscheinlichkeitsprinzip verstoßen. Warum sollten Proben bei der Durchführung eines T-Tests nicht berücksichtigt werden? Weil häufig auftretende Methoden über den Probenraum mitteln. Warum sollten Realisierungen des Parameters für Ihre Stichprobe irrelevant sein? Die schwache Antwort liegt darin, dass Bayes'sche Methoden über den Parameterraum gemittelt werden.
Diese Frage wäre ein sehr legitimer Angriff, insbesondere auf subjektive Bayes'sche Methoden, wenn man polemisch sein wollte. Obwohl sich gezeigt hat, dass das Wahrscheinlichkeitsprinzip unter bestimmten Denkweisen fehlerhaft ist, scheint die philosophische Konstruktion frequentistischer Methoden die Bayes'sche Arbeit nicht widerzuspiegeln. Das sollte ein Papier sein, obwohl es wahrscheinlich die Fehler des Wahrscheinlichkeitsprinzips in der Bayes'schen Statistik teilen würde.
Die stärkere Antwort ist, dass uns als eine unendliche Stichprobengröße fehlt. Da Bayes'sche Methoden Zufälligkeit als Unsicherheit und nicht als Zufall behandeln, wie dies bei häufig vorkommenden Methoden der Fall ist, ist dies eine Quantifizierung der Unsicherheit, die in Ihrem Verständnis der Natur verbleibt. Wenn Sie auf den Parameter reagieren müssen und ihn auf nur zwei mögliche Werte und , sagen Sie mit es kann gefährlich sein und es ist sicherlich inkohärent (im de Finetti-Sinne), als den einzig möglichen Wert zu ignorieren .limn→∞θ^→θ θ^A θ^B Pr(θ=θ^A)=.75 θ^B
Um ein konkretes Beispiel zu geben, habe ich 78 Insolvenzmodelle getestet und festgestellt, dass die kumulative hintere Wahrscheinlichkeit für 76 von ihnen von einem Prozent betrug, während die anderen beiden ungefähr 54% und 46% betrugen. Glücklicherweise hat kein Modell Variablen gemeinsam genutzt. Ein Grund zur Sorge ist, dass ich mit ziemlicher Sicherheit das wahre Modell falsch habe. Die Modellmittelung der Vorhersagedichte ermöglichte es mir, einen bemerkenswert kleinen Fehler außerhalb der Stichprobe zu erzeugen. Ich interessiere mich für die Modelle mit hoher Wahrscheinlichkeit, und wenn ich die Ressourcen hätte, um die Ergebnisse unter einer vollständigen Modellmittelung zu berechnen, die die 76 Modelle mit niedriger Wahrscheinlichkeit enthält, hätten sich die Ergebnisse nicht innerhalb der Anzahl von Stellen geändert, die ich für signifikant halte.1/10,000th
Dies ist der Bayes-Satz. Wenn man sehr intellektuell ehrlich ist, dann erfordert die wahre, extreme subjektivistische Sichtweise, a la Savage , nichts weiter als eine angemessene hintere Dichte. Wenn ich mit dir spielen will, wie de de FinettiWenn ich darüber nachdenke, ob die Schwerkraft durch das Verlassen eines zehnstöckigen Gebäudes gültig ist oder nicht, sollte ich alternative Ansichten der Realität in Betracht ziehen, bevor ich mein Glücksspiel mache. Wenn ich nun die Entscheidungstheorie einbeziehen wollte, da das Verlassen eines zehnstöckigen Gebäudes eine natürliche Version der Alles-oder-Nichts-Kostenfunktion ist, dann sollte ich das Gebäude verlassen, wenn meine Überzeugungen gegen die Schwerkraft ausreichend stark sind . Dabei würde ich mir nur Sorgen um dieses eine Experiment machen, da die Wiederholbarkeit zu einem Problem wird, wenn ich falsch liege. In diesem Fall hat Ihre Frage keine Bedeutung, es sei denn, ich bin richtig. Wenn ich andererseits Geld spiele, wäre ein quadratischer Verlust in den meisten realen Fällen die geeignete Verlustfunktion, wenn man die Art der Nachfragekurve für Glücksspiele und das Verhältnis zu den Einnahmen aus Glücksspielen berücksichtigt.
Das Potenzial für einen sich ändernden Parameter spiegelt sich in der Bayes'schen Aktualisierung wider. Ihre Frage ist nur in Wiederholung von Bedeutung. Das ist der Inbegriff der Bayes'schen Aktualisierung in einem rein subjektivistischen Rahmen. Wie modelliere ich subjektive Parameterzeichnungen, indem ich viele Experimente durchführe und sie verbinde, um den posterioren Bereich auf die Lösung der Natur zu beschränken? Dies ist ein Denksystem, das auf dem generativen Modell basiert.
EDIT Ich denke, ich sollte ein bisschen sichern. Es gibt mehr als eine Interpretation und mehr als eine Axiomatisierung von Bayes'schen Methoden. Sie liegen Ihren Fragen etwas zugrunde.
Bei der subjektiven Interpretation werden Parameter zufällig aus einer Verteilung gezogen. Diese Verteilung ist die vorherige Dichte. Wenn Sie an den Zähler des Bayes-Theorems denken , folgt logischerweise, dass der Zähler stark vom Prior abhängt. Da zufällig ist, kann ein Experiment als Instanziierung von . Wenn Sie ein anderes Experiment durchführen, ist dies eine weitere Instanziierung von . Ziel ist es, die wahre Verteilung der Parameter zu finden. Diese Verteilung könnte an einem einzigen Punkt eine unendliche Masse und überall sonst eine Masse von Null haben.f(x|θ)π(θ) θ θ θ
Bei der objektiven Interpretation sind die Parameter wie bei der Frequentist-Methodik festgelegt, sie sind jedoch unbekannt. Der Prior stellt eine Quantifizierung der unbekannten Wahrscheinlichkeit dar, dass . Die Wahrscheinlichkeit ist die Verteilung der Stichprobe. Es gibt einen Parameter der der Natur bekannt ist und den die Natur verwendet, um ein Beispiel zu erstellen . Der Prior der Natur hat eine unendliche Masse an einem einzelnen Punkt und ist an anderer Stelle Null. Ihr Prior enthält die Informationen darüber, was Sie bis zu diesem Zeitpunkt entdeckt haben. Die Wahrscheinlichkeit berücksichtigt nur die gesehene Probe und ignoriert den Rest des Probenraums.θ=k θ X
Es gibt keinen mathematischen Formunterschied zwischen den beiden Interpretationen. Es gibt auch eine "Convenience-Interpretation". Es würde so etwas gehen. Bayesianische Methoden sind wirklich nützlich, Priors herauszufinden jedoch nicht. Wenn ein Prior erstellt werden kann, der die Entdeckung des Parameters nicht beeinträchtigt, sollte der bequemste und einfachste Prior verwendet werden, da der Prior bei der Regularisierung der Stichprobe unglaublich wertvoll sein kann. In dieser Ansicht sind Parameter immer noch Zufallsvariablen, aber niemand denkt viel darüber nach, was es bedeutet. Es ist nur nützlich.
Es gibt drei Hauptgruppen von Axiomen hinter dem Bayes'schen Denken. In einigen Fällen spielt die Wahl tatsächlich eine Rolle. Dies ist nicht auf Berechnungsunterschiede zurückzuführen, sondern auf theoretische Unterschiede. Zum Beispiel ermöglichen Savages Axiome den Forschern, Nutzen und Wahrscheinlichkeit zu trennen. Die Axiome von de Finetti erlauben es Forschern nicht, Nutzen von Wahrscheinlichkeit zu trennen. Dies liegt daran, dass in de Finettis Konstruktion keine Wahrscheinlichkeit besteht.
de Finetti hat zwei Axiome. Das erste ist, dass ein Buchmacher keine Wetten akzeptiert, die in allen Naturzuständen zu einem sicheren Verlust führen. Das zweite ist, dass der Buchmacher alle endlichen Wetten zu den vom Buchmacher angegebenen Preisen akzeptiert. Dies ist eine ungewöhnliche Methode, um einen Wahrscheinlichkeitstest der Geschwindigkeit eines Objekts bei Standardtemperatur und -druck zu motivieren, funktioniert jedoch. Es gibt die Wahrscheinlichkeit in Bezug auf Glücksspiele wieder. Beachten Sie, dass in beiden Axiomen weder Wahrscheinlichkeit noch Nutzen erwähnt werden. Die Wahrscheinlichkeit in de Finettis Welt ist nur eine Berechnung, mit der wir über die Welt nachdenken und die es nicht wirklich gibt. Dienstprogramm auch nicht. Wenn Sie also Nutzen und Wahrscheinlichkeit zusammen verwenden, sind sie nicht zu unterscheiden, da es sich bei beiden um abstrakte Berechnungen handelt, die zum Verständnis der Welt dienen. Sie sind lediglich Konstrukte des Geistes.
Stellen Sie sich als Beispiel vor, wie ein Frequentist und ein Bayesianer das Spiel von Cho Han verstehen würden. Um die Bayes'sche Perspektive zu verstehen, schauen Sie sich den japanischen Film Zatoichi von 1962 an. Cho Han ist ein Spiel, das davon abhängt, ob die Würfel gerade oder ungerade sind. Es wird häufig als Gerät in Yakuza-Filmen verwendet. Dies liegt daran, dass es, wie jeder Physiker, Magier oder Betrüger Ihnen sagen wird, keinen zufälligen Würfelwurf oder Münzwurf gibt. Das Ergebnis ist für das Publikum ungewiss, für Kenner jedoch absolut sicher. Es ist unmöglich, dass eine Stichprobe zufällig ist, da sie nach Abschluss festgelegt ist. Du weißt es. Die Frage ist, wie Parameter Zufallsvariablen sein können.
Was fehlt, ist die Richtlinie, die die Parameter erstellt. In einem perfekt spezifizierten Modell gibt es keine Möglichkeit, zwischen einer Reihe von Experimenten mit aus und wobei nicht sicher ist, wo sich befindet.θ π(θ) θ=θtrue θtrue
In Bezug auf Frage zwei sollten Sie über die Wahrscheinlichkeitskontroverse lesen. Das Wahrscheinlichkeitsprinzip ist auf den ersten Blick wahrscheinlich nicht gültig, aber es ist die Bayes'sche Version Ihrer zweiten Frage. Es ist eine sehr tiefe Frage und kann keine flache Antwort haben. Sie könnten ein Buch und sicherlich einen Artikel darüber schreiben.
Das Likelihood-Prinzip basiert auf zwei Prinzipien, und die häufig auftretende Folgerung verstößt dagegen. Es basiert auf zwei Prinzipien, dem Konditionalitätsprinzip und dem Suffizienzprinzip. Wenn das Konditionalitätsprinzip und das Suffizienzprinzip gelten, sind p-Werte immer ein falscher Weg, um die Inferenz zu bestimmen. Sowohl das Konditionalitätsprinzip als auch das Wahrscheinlichkeitsprinzip sind für die meisten Statistiker individuell attraktiv, aber gemeinsam könnte argumentiert werden, dass sie den Frequentismus auseinander nehmen. Ihre Frage könnte als häufig auftretende Parallele angesehen werden.
Als solches haben Sie eine tiefere Antwort erhalten, als Sie beabsichtigt hatten. Wenn ich Doktorand wäre, könnte ich mich hinsetzen und Zeit damit verbringen, über Ihre zweite Frage nachzudenken. Möglicherweise liegt dort ein tiefes Prinzip zugrunde.
Siehe zum Beispiel die Frage zur Stapelaustauschwahrscheinlichkeit
oder
Wahrscheinlichkeitsvorlesung
quelle