Ich denke also, dass ich die Grundlagen der frequentistischen Wahrscheinlichkeit und der statistischen Analyse (und wie schlecht sie verwendet werden können) gut verstehe. In einer frequentistischen Welt ist es sinnvoll, eine Frage wie "Unterscheidet sich diese Verteilung von jener Verteilung?" Zu stellen, da angenommen wird, dass Verteilungen real, objektiv und unveränderlich sind (zumindest für eine gegebene Situation) wie wahrscheinlich es ist, dass eine Probe aus einer Verteilung gezogen wird, die wie eine andere Probe geformt ist.
In der Bayesianischen Weltanschauung kümmern wir uns nur um das, was wir sind aufgrund unserer Erfahrungen in der Vergangenheit erwarten (ich bin in diesem Punkt noch ein bisschen vage, verstehe aber das Konzept der Bayes'schen Aktualisierung). Wenn dem so ist, wie kann ein Bayesianer dann sagen, dass sich dieser Datensatz von diesem Datensatz unterscheidet?
Für die Zwecke dieser Frage ist mir statistische Signifikanz oder ähnliches egal, nur wie man Unterschiede quantifiziert. Ich interessiere mich gleichermaßen für parametrische und nicht parametrische Verteilungen.
quelle
Antworten:
Überlegen Sie sich Ihre Aussage als Frequentist und präzisieren Sie sie zuerst. Ein Frequentist konnte ohne weitere Klärung nicht sagen, dass "Datensatz A sich von Datensatz B unterscheidet".
Zunächst müssten Sie angeben, was Sie mit "anders" meinen. Vielleicht meinen Sie "unterschiedliche Mittelwerte haben". Andererseits könnten Sie "unterschiedliche Varianzen" meinen. Oder vielleicht noch etwas?
Dann müssten Sie angeben, welche Art von Test Sie verwenden würden, was davon abhängt, was Ihrer Meinung nach gültige Annahmen zu den Daten sind. Nehmen Sie an, dass beide Datensätze auf irgendeine Weise normalverteilt sind? Oder glauben Sie, dass beide Beta-Distributed sind? Oder etwas anderes?
Können Sie jetzt sehen, dass die zweite Entscheidung den Prioritäten in der Bayes'schen Statistik sehr ähnlich ist? Es ist nicht nur "meine vergangene Erfahrung", sondern es sind vernünftige Annahmen über meine Daten, an die ich glaube und an die meine Kollegen glauben werden. (Und Bayesianer können einheitliche Prioritäten verwenden, was die Dinge in Richtung häufigster Berechnungen treibt.)
EDIT: Als Antwort auf Ihren Kommentar: Der nächste Schritt ist in der ersten Entscheidung enthalten, die ich erwähnt habe. Wenn Sie entscheiden möchten, ob die Mittelwerte zweier Gruppen unterschiedlich sind, sollten Sie anhand der Verteilung der Differenz der Mittelwerte der beiden Gruppen feststellen, ob diese Verteilung auf einer bestimmten Vertrauensstufe Null enthält oder nicht. Wie genau Sie als Null gelten und welchen Anteil der (posterioren) Verteilung Sie verwenden, bestimmen Sie und das von Ihnen gewünschte Maß an Vertrauen.
Eine Diskussion dieser Ideen findet sich in einem Artikel von Kruschke , der auch ein gut lesbares Buch über Bayesianische Datenanalyse verfasst hat , das ein Beispiel auf den Seiten 307-309 "Sind verschiedene Gruppen gleich?" (Zweite Ausgabe: S. 468-472.) Er hat auch einen Blogeintrag zu diesem Thema mit einigen Fragen und Antworten.
WEITERE BEARBEITUNG: Ihre Beschreibung des Bayes'schen Prozesses ist ebenfalls nicht ganz korrekt. Die Bayesianer kümmern sich nur darum, was die Daten uns mitteilen, und zwar vor dem Hintergrund dessen, was wir unabhängig von den Daten wussten. (Wie Kruschke hervorhebt, muss das Prior nicht unbedingt vor den Daten stehen. Dies impliziert der Ausdruck, aber es ist in Wirklichkeit nur unser Wissen, das einige der Daten ausschließt.) Was wir unabhängig von einem bestimmten Satz von Daten wussten, kann vage oder spezifisch sein und kann auf Konsens basieren, ein Modell des zugrunde liegenden Datenerzeugungsprozesses, oder kann nur das Ergebnis eines anderen (nicht notwendigerweise vorherigen) Experiments sein.
quelle
Dieses Papier könnte von Interesse sein: http://arxiv.org/pdf/0906.4032v1.pdf
Es gibt eine schöne Zusammenfassung einiger häufig auftretender und bayesianischer Ansätze für das Zwei-Beispiele-Problem und erörtert sowohl die parametrischen als auch die nichtparametrischen Fälle.
Es könnte den anderen Antworten etwas hinzufügen, um ein einfaches Beispiel zu geben. Angenommen, Sie haben zwei Datensätze und y, in denen jedes x i und jedes y j istx y xi yj entweder eine 0 oder eine . Sie gehen von einem IId Bernoulli - Modell in beiden Fällen, so dass jeder x i ~ B e r n ( p ) und jeder y i ~ B e r n ( q ) . Ihre Hypothese Szenario testet in sowohl der frequentistischen und Bayes - Einstellungen können sein:1 xi∼Bern(p) yi∼Bern(q)
nicht unbedingt gleich.H1:p,q
Die Wahrscheinlichkeiten für die Daten sind jeweils:
Unter : L 0 ( p ) = f ( x , y ; pH0 L0(p)=f(x,y;p)=∏ipi(1−p)1−i∏jpj(1−p)1−j
Unter : L 1 ( p , q ) = f ( x , y ; p , qH1 L1(p,q)=f(x,y;p,q)=∏ipi(1−p)1−i∏jqj(1−q)1−j
The Bayes factor can be combined with some prior beliefs on the probability ofH0 or H1 being true, to give the probability of H0 versus H1 after seeing the data. If we assume apriori that each hypothesis is equally likely, so p(H0)=p(H1)=1/2 , then this gives:
Intuitively, if this ratio is>1 , then the posterior probability of H0 is larger than H1 , so you would say that H0 has a higher probability of being true under these assumptions for the prior and model.
One nice thing about the Bayes factor is how it automatically penalises more complex models (such asH1 here). A nice paper offering some more intuition is here: http://quasar.as.utexas.edu/papers/ockham.pdf.
Hope that helps along with the other answers already posted.
quelle
Given data, how strongly do we believe that 2 groups do not come from the same population (H_1: they do not come from the same population vs H_0: they come from the same population). This can be done with a Bayesian t-test.
Complexity is used to figure out how much the prior is overlapping with one hypothesis. Fit is used to figure out how much the posterior is overlapping with one hypothesis. Combined you can compare the hypotheses and express your posterior belief in whether or not they come from the same population.
quelle