In einer Gruppe von Studenten sind 2 von 18 Linkshändern. Finden Sie die posteriore Verteilung der Linkshänder in der Bevölkerung unter der Annahme, dass sie zuvor nicht informativ waren. Fassen Sie die Ergebnisse zusammen. Laut Literatur sind 5-20% der Menschen Linkshänder. Berücksichtigen Sie diese Informationen in Ihrem vorherigen und berechnen Sie den neuen Seitenzahn.
Ich weiß, dass die Beta-Distribution hier verwendet werden sollte. Erstens mit und Werten als 1? Die Gleichung, die ich im Material für posterior gefunden habe, ist
,
Warum ist das in der Gleichung? ( bezeichnet den Anteil der Linkshänder). Es ist unbekannt, wie kann es in dieser Gleichung sein? Mir scheint es lächerlich zu berechnen gegeben und verwenden Sie diese in der Gleichung geben . Nun, mit der Probe Das Ergebnis war . Das soll ich daraus ableiten?
Die Gleichung, die einen erwarteten Wert von bei bekanntem und funktionierte besser und ergab was ungefähr richtig klingt. Die Gleichung ist wobei der Wert und zugewiesen ist . Welche Werte sollte ich für und , um vorherige Informationen zu berücksichtigen?
Einige Tipps wären sehr dankbar. Ein allgemeiner Vortrag über frühere und spätere Verteilungen würde auch nicht schaden (ich verstehe vage, was sie sind, aber nur vage) Fortgeschrittene Mathematik wird wahrscheinlich über meinen Kopf fliegen.
Antworten:
Lassen Sie mich zunächst erklären, was ein konjugierter Prior ist. Ich werde dann die Bayesianischen Analysen anhand Ihres konkreten Beispiels erläutern. Die Bayes'schen Statistiken umfassen die folgenden Schritte:
Die Grundlage aller Bayes'schen Statistiken ist der Bayes'sche Satz
In Ihrem Fall ist die Wahrscheinlichkeit binomisch. Wenn sich die vorherige und die hintere Verteilung in derselben Familie befinden, werden die vorherige und die hintere Verteilung als konjugierte Verteilungen bezeichnet. Die Betaverteilung ist ein konjugierter Prior, da der Posterior ebenfalls eine Betaverteilung ist. Wir sagen, dass die Beta-Verteilung die konjugierte Familie für die Binomialwahrscheinlichkeit ist. Konjugatanalysen sind praktisch, treten jedoch in der Praxis nur selten auf. In den meisten Fällen muss die posteriore Distribution über MCMC numerisch gefunden werden (mit Stan, WinBUGS, OpenBUGS, JAGS, PyMC oder einem anderen Programm).
Wenn die Prioritätswahrscheinlichkeitsverteilung nicht zu 1 integriert wird, wird sie als unkorrekter Prioritätswert bezeichnet. Wenn sie zu 1 integriert wird, wird sie als korrekter Prioritätswert bezeichnet. In den meisten Fällen ist ein falscher Prior für Bayes-Analysen kein großes Problem. Die posteriore Verteilung muss jedoch korrekt sein, dh der posteriore Wert muss zu 1 integriert werden.
Diese Faustregeln ergeben sich direkt aus der Natur des Bayes'schen Analyseverfahrens:
Einen hervorragenden Überblick über einige mögliche "informative" und "nicht informative" Prioritäten für die Betaverteilung finden Sie in diesem Beitrag .
Angenommen, Ihre vorherige Betaversion ist wobei der Anteil der Linkshänder ist. Um die vorherigen Parameter und anzugeben , ist es hilfreich, den Mittelwert und die Varianz der Beta-Verteilung zu kennen (z. B. wenn Sie möchten, dass Ihre vorherige einen bestimmten Mittelwert und eine Varianz hat). Der Mittelwert ist . Wenn also , ist der Mittelwert . Die Varianz der Beta-Verteilung ist . Das Praktische ist nun, dass Sie an und denken könnenBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β wie zuvor beobachtete (Pseudo-) Daten, nämlich -Linkshänder und -Rechtshänder aus einer (Pseudo-) Stichprobe der Größe . Die Verteilung von ist gleichmäßig (alle Werte von sind gleich wahrscheinlich) und entspricht der Beobachtung von zwei Personen Davon ist einer Linkshänder und einer Rechtshänder.α β neq=α+β Beta(πLH|α=1,β=1) πLH
Die hintere Beta-Verteilung ist einfach wobei die Größe der Stichprobe und die Anzahl der Linkshänder in der Stichprobe ist. Das hintere Mittel von ist daher . Um die Parameter der posterioren Beta-Verteilung zu finden, fügen wir einfach Linkshänder zu und Rechtshänder zu . Die hintere Varianz istBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Beachten Sie, dass ein sehr informativer Prior auch zu einer geringeren Varianz der posterioren Verteilung führt (die folgenden Grafiken veranschaulichen den Punkt gut).
In deinem Fall ist und und dein Prior ist die Uniform, die nicht aussagekräftig ist, also ist . Ihre hintere Verteilung ist daher . Der hintere Mittelwert ist . Hier ist eine Grafik, die den Prior, die Wahrscheinlichkeit der Daten und den Posterior zeigtz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Sie sehen, dass Ihre nachträgliche Verteilung vollständig von den Daten abhängt, da Ihre vorherige Verteilung nicht aussagekräftig ist. Dargestellt ist auch das höchste Dichteintervall (HDI) für die posteriore Verteilung. Stellen Sie sich vor, Sie legen Ihre hintere Verteilung in ein 2D-Becken und beginnen, Wasser einzufüllen, bis sich 95% der Verteilung über der Wasserlinie befinden. Die Punkte, an denen sich die Wasserlinie mit der posterioren Verteilung schneidet, bilden den 95% -HDI. Jeder Punkt innerhalb des HDI hat eine höhere Wahrscheinlichkeit als jeder Punkt außerhalb. Außerdem enthält der HDI immer den Peak der posterioren Verteilung (dh den Modus). Der HDI unterscheidet sich von einem gleichschwänzigen, zu 95% glaubwürdigen Intervall, bei dem 2,5% von jedem Schwanz des Seitenzahns ausgeschlossen sind (siehe hier ).
Bei Ihrer zweiten Aufgabe werden Sie gebeten, die Information, dass 5-20% der Bevölkerung Linkshänder sind, zu berücksichtigen. Dafür gibt es verschiedene Möglichkeiten. Der einfachste Weg ist zu sagen, dass die vorherige Beta-Verteilung einen Mittelwert von was dem Mittelwert von und . Aber wie wählt man und der vorherigen Betaverteilung aus? Zunächst möchten Sie, dass Ihr Mittelwert der vorherigen Verteilung aus einer Pseudo-Stichprobe mit der entsprechenden Stichprobengröße beträgt . Allgemeiner gesagt, wenn Sie möchten, dass Ihr Vorgänger einen Mittelwert mit einer Pseudo-Stichprobengröße , das entsprechende0.125 0.05 0.2 α β 0.125 neq m neq α und -Werte sind: und . Jetzt müssen Sie nur noch die Pseudo-Stichprobengröße auswählen, die bestimmt, wie sicher Sie über Ihre vorherigen Informationen sind. Angenommen, Sie sind sich Ihrer vorherigen Informationen sehr sicher und setzen . Die Parameter Ihrer vorherigen Verteilung sind daher und . Die hintere Verteilung ist mit einem Mittelwert von etwa was praktisch dem vorherigen Mittelwert vonβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 . Die Vorinformation dominiert den posterioren Bereich (siehe folgende Grafik):
Wenn Sie sich bezüglich der vorherigen Informationen weniger sicher sind, können Sie das Ihres Pseudo-Samples auf beispielsweise , was zu und für Ihre vorherige Beta-Verteilung führt. Die hintere Verteilung ist mit einem Mittelwert von etwa . Der hintere Mittelwert liegt nun in der Nähe des Mittelwerts Ihrer Daten ( ), da die Daten den vorherigen überschreiten. Hier ist die Grafik, die die Situation zeigt:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Eine fortgeschrittenere Methode zum Einbeziehen der vorherigen Informationen wäre, zu sagen, dass das Quantil Ihrer vorherigen Beta-Verteilung etwa und das Quantil etwa sollte . Dies entspricht der Aussage, dass Sie zu 95% sicher sind, dass der Anteil der Linkshänder an der Bevölkerung zwischen 5% und 20% liegt. Die Funktion im R-Paket berechnet die entsprechenden und Werte einer solchen Quantilen entsprechenden beta-Verteilung. Der Code ist0.025 0.05 0.975 0.2 α β
beta.select
LearnBayes
Es scheint, dass eine Beta-Distribution mit den Parametern und die gewünschten Eigenschaften hat. Der vorherige Mittelwert liegt bei was in der Nähe des Mittelwerts Ihrer Daten ( ) liegt. Wiederum beinhaltet diese vorherige Verteilung die Information einer Pseudo-Stichprobe mit einer äquivalenten Stichprobengröße von ungefähr . Die posteriore Verteilung ist mit einem Mittelwert von der mit dem Mittelwert der vorherigen Analyse unter Verwendung eines hochinformativen vor vergleichbar ist. Hier ist die entsprechende Grafik:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Siehe auch diese Referenz für einen kurzen, aber sehr guten Überblick über das Bayes'sche Denken und eine einfache Analyse. Eine längere Einführung für Konjugatanalysen, insbesondere für Binomialdaten, finden Sie hier . Eine allgemeine Einführung in das Bayes'sche Denken finden Sie hier . Weitere Folien zu Aspekten der baysischen Statistik finden Sie hier .
quelle
Eine Beta-Verteilung mit = 1 und = 1 entspricht einer Gleichverteilung. So ist es in der Tat uniformativ. Sie versuchen, Informationen über einen Parameter einer Verteilung zu finden (in diesem Fall den Prozentsatz der Linkshänder in einer Gruppe von Personen). Die Bayes-Formel lautet:α β
was Sie darauf hingewiesen haben, ist proportional zu:
α ( Y 1 , . . . , N | r ) * P ( r )P(r|Y1,...,n) ∝ (Y1,...,n|r)∗P(r)
Sie beginnen also im Grunde genommen mit Ihrer vorherigen Überzeugung, dass der Anteil der Linkshänder in der Gruppe (P (r), für die Sie einen einheitlichen Abstand verwenden), und berücksichtigen dann die Daten, die Sie sammeln, um Ihren Prior zu informieren (ein Binomial) in diesem Fall sind Sie entweder Rechts- oder Linkshänder, also ). Eine Binomialverteilung hat ein Beta-Konjugat vor, was bedeutet, dass die hintere VerteilungP ( r | Y 1 , . . . N ) αP(Y1,...,n|r) P(r|Y1,...n) gehört die Verteilung des Parameters nach Berücksichtigung der Daten zur selben Familie wie der vorherige. r hier ist am Ende nicht unbekannt. (Und ehrlich gesagt war es nicht vor dem Sammeln der Daten. Wir haben eine ziemlich gute Vorstellung vom Anteil der Linkshänder in der Gesellschaft.) Sie haben sowohl die vorherige Verteilung (Ihre Annahme von r) als auch die gesammelten Daten und füge die beiden zusammen. Der hintere Teil ist Ihre neue Annahme der Verteilung der Linkshänder nach Berücksichtigung der Daten. Sie nehmen also die Wahrscheinlichkeit der Daten und multiplizieren sie mit einer Uniform. Der erwartete Wert einer Beta-Distribution (das ist, was das Poster ist) ist . Also, als du angefangen hast, deine Annahme mit = 1 und αβ1αα+β α β = 1 war, dass der Anteil der Linkshänder in der Welt . Jetzt haben Sie Daten gesammelt, bei denen 2 von 18 übrig sind. Sie haben einen Posterior berechnet. (noch eine Beta) Ihre Werte für und sind jetzt unterschiedlich und ändern Ihre Vorstellung vom Verhältnis von Linken zu Rechten. Wie hat es sich verändert? αβ12 α β
quelle
Im ersten Teil Ihrer Frage werden Sie aufgefordert, einen geeigneten Prior für "r" zu definieren. Mit den vorliegenden Binomialdaten wäre es ratsam, eine Betaverteilung zu wählen. Denn dann wird der hintere Teil eine Beta sein. Da es sich bei der gleichmäßigen Verteilung um einen speziellen Beta-Fall handelt, können Sie für "r" die gleichmäßige Verteilung vorziehen, sodass jeder mögliche Wert von "r" gleich wahrscheinlich ist.
Im zweiten Teil haben Sie die Informationen bezüglich der vorherigen Verteilung "r" bereitgestellt.
Mit dieser Antwort von @ COOLSerdash erhalten Sie die richtigen Anweisungen.
Vielen Dank, dass Sie diese Frage gestellt haben, und COOLSerdash für die richtige Antwort.
quelle