In dem berühmten Dame-Verkostungstee- Experiment von RA Fisher wird die Dame darüber informiert, wie viele Milch- / Tee-erste-Tassen es gibt (4 für jede von 8 Tassen). Dies respektiert die festgelegte marginale Gesamtannahme von Fischers genauem Test.
Ich stellte mir vor, diesen Test mit meinem Freund zu machen, aber der Gedanke traf mich. Wenn die Dame wirklich den Unterschied zwischen Milch- und Teetassen erkennen kann, sollte sie in der Lage sein, marginale Summen der Milch- und Teetassen sowie welche davon zu ermitteln.
Hier ist also die Frage: Welcher Test hätte verwendet werden können, wenn RA Fisher die Dame nicht über die Gesamtzahl der Milch- und Teetassen informiert hätte?
Antworten:
Einige würden argumentieren, dass der zweite Rand, auch wenn er nicht durch das Design festgelegt ist, nur wenige Informationen über die Fähigkeit der Dame zur Diskriminierung enthält (dh er ist ungefähr ein Zusatz) und abhängig gemacht werden sollte. Der exakte unbedingte Test (zuerst von Barnard vorgeschlagen ) ist komplizierter, da Sie den maximalen p-Wert über alle möglichen Werte eines Störparameters berechnen müssen, nämlich die gemeinsame Bernoulli-Wahrscheinlichkeit unter der Nullhypothese. In jüngerer Zeit wurde vorgeschlagen, den p-Wert über ein Konfidenzintervall für den Störparameter zu maximieren: siehe Berger (1996), "Stärkere Tests aus Konfidenzintervall-p-Werten", The American Statistician , 50 , 4; Mit dieser Idee können exakte Tests mit der richtigen Größe erstellt werden.
Fisher's Exact Test tritt auch als Randomisierungstest im Sinne von Edgington auf: Eine zufällige Zuordnung der experimentellen Behandlungen ermöglicht die Verteilung der Teststatistik über Permutationen dieser Zuordnungen, um die Nullhypothese zu testen. In diesem Ansatz werden die Bestimmungen der Dame als fest angesehen (& die Grenzsummen von Milch- und Teebechern werden natürlich durch Permutation erhalten).
quelle
Barnard::barnardw.test()
hier verwendet werden? Welcher Unterschied in der Rechenkomplexität ist in der Praxis zu erwarten?Exact
. Was die Komplexität der Berechnungen betrifft, weiß ich nicht - es wird vom verwendeten Maximierungsalgorithmus abhängen.Heute habe ich die ersten Kapitel von "The Design of Experiments" von RA Fisher gelesen und in einem der Absätze wurde mir der grundlegende Fehler in meiner Frage klar.
Das heißt, auch wenn die Dame wirklich den Unterschied zwischen Milch- und Teebechern erkennen kann, kann ich niemals nachweisen, dass sie diese Fähigkeit "durch eine endliche Menge an Experimenten" besitzt. Aus diesem Grund sollte ich als Experimentatorin davon ausgehen, dass sie keine Fähigkeit besitzt (Nullhypothese) und versuchen, dies abzulehnen. Und der ursprüngliche Versuchsplan (Fisher-Exact-Test) ist ein ausreichendes, effizientes und vertretbares Verfahren, um dies zu tun.
Hier ist der Auszug aus "The Design of Experiments" von RA Fisher:
quelle
Der Barnard-Test wird verwendet, wenn der Störparameter unter der Nullhypothese unbekannt ist.
Im Damentest könnte man jedoch argumentieren, dass der Störparameter unter der Nullhypothese auf 0,5 gesetzt werden kann (die nicht informierte Dame hat eine 50% ige Wahrscheinlichkeit, eine Tasse richtig zu erraten).
Dann wird die Anzahl der korrekten Vermutungen unter der Nullhypothese zu einer Binomialverteilung: Vermutung von 8 Bechern mit einer Wahrscheinlichkeit von 50% für jeden Becher.
In anderen Fällen haben Sie möglicherweise nicht diese unbedeutende Wahrscheinlichkeit von 50% für die Nullhypothese. Und ohne feste Margen wissen Sie möglicherweise nicht, wie hoch diese Wahrscheinlichkeit sein sollte. In diesem Fall brauchen Sie Barnards Test.
Selbst wenn Sie Barnards Test mit dem Lady Tasting Tea Test durchführen würden, würde er ohnehin 50% betragen (wenn das Ergebnis alle richtigen Vermutungen sind), da der Störparameter mit dem höchsten p-Wert 0,5 beträgt und zum trivialen Binomialtest führen würde ( es ist eigentlich die Kombination von zwei Binomialtests (einer für die vier ersten Tassen Milch und einer für die vier ersten Tassen Tee).
Im Folgenden sehen Sie, wie ein komplizierteres Ergebnis aussehen würde (wenn nicht alle Vermutungen korrekt sind, z. B. 2 gegen 4), wird das Zählen von Extremen und Nicht-Extremen etwas schwieriger
(Beachten Sie auch, dass der Barnard-Test im Fall eines 4-2-Ergebnisses einen Störparameter p = 0,686 verwendet, von dem Sie behaupten können, dass er nicht korrekt ist. Der p-Wert für die 50% ige Wahrscheinlichkeit, mit „Tee zuerst“ zu antworten, wäre 0,08203125. Dies wird noch kleiner , wenn Sie eine andere Region betrachten, statt die bereits basierend auf Walds Statistik, obwohl die Definition der Region ist nicht so einfach )
quelle