Zum genauen Test von Fisher: Welcher Test wäre angebracht gewesen, wenn die Dame die Anzahl der ersten Tassen nicht gewusst hätte?

In dem berühmten Dame-Verkostungstee- Experiment von RA Fisher wird die Dame darüber informiert, wie viele Milch- / Tee-erste-Tassen es gibt (4 für jede von 8 Tassen). Dies respektiert die festgelegte marginale Gesamtannahme von Fischers genauem Test.

Ich stellte mir vor, diesen Test mit meinem Freund zu machen, aber der Gedanke traf mich. Wenn die Dame wirklich den Unterschied zwischen Milch- und Teetassen erkennen kann, sollte sie in der Lage sein, marginale Summen der Milch- und Teetassen sowie welche davon zu ermitteln.

Hier ist also die Frage: Welcher Test hätte verwendet werden können, wenn RA Fisher die Dame nicht über die Gesamtzahl der Milch- und Teetassen informiert hätte?

hypothesis-testing statistical-significance fishers-exact conditioning Alby
quelle

Scortchi

Tatsächlich hat Barnards Test eine Wikipedia-Seite.

Scortchi

@Scortchi was gibt es noch zu sagen? Ich würde nichts hinzufügen (noch würde ich es schaffen, es so klar und prägnant auszudrücken). Ich denke, Sie haben in Ihren beiden Kommentaren eine gute Antwort.

Glen_b -Reinstate Monica

In Yates, F. (1984), "Tests of Significance for 2 × 2 Contingency Tables", Journal of the Royal Statistical Society ( Zeitschrift der Royal Statistical Society ), gibt es eine Diskussion, die es wert ist, betrachtet zu werden . Series A (General) , Vol. 147, Nr. 3, S. 426-463.

Glen_b

Nur im Durchschnitt über 4 Tassen Tee mit Milch und 4 ohne, können wir sagen, dass sie mit einer Wahrscheinlichkeit von richtig raten kann; & Die Verteilung ihrer gesamten korrekten Vermutungen ist konzentrierter um 4, als wenn sie einer Binomialverteilung folgen würde. Aber wenn sie "Milch" mit einer Wahrscheinlichkeit von errät, dann errät sie mit einer Wahrscheinlichkeit von wann Milch im Tee ist und wann nicht, und wie verteilt von ihrer Summe der richtigen Vermutungen folgt eine Binomialverteilung. Es ist also ein lästiger Parameter zu berücksichtigen, ...

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

\frac{1}{2}

$\frac{1}{2}$

Scortchi - Reinstate Monica

Antworten:

Einige würden argumentieren, dass der zweite Rand, auch wenn er nicht durch das Design festgelegt ist, nur wenige Informationen über die Fähigkeit der Dame zur Diskriminierung enthält (dh er ist ungefähr ein Zusatz) und abhängig gemacht werden sollte. Der exakte unbedingte Test (zuerst von Barnard vorgeschlagen ) ist komplizierter, da Sie den maximalen p-Wert über alle möglichen Werte eines Störparameters berechnen müssen, nämlich die gemeinsame Bernoulli-Wahrscheinlichkeit unter der Nullhypothese. In jüngerer Zeit wurde vorgeschlagen, den p-Wert über ein Konfidenzintervall für den Störparameter zu maximieren: siehe Berger (1996), "Stärkere Tests aus Konfidenzintervall-p-Werten", The American Statistician , 50 , 4; Mit dieser Idee können exakte Tests mit der richtigen Größe erstellt werden.

Fisher's Exact Test tritt auch als Randomisierungstest im Sinne von Edgington auf: Eine zufällige Zuordnung der experimentellen Behandlungen ermöglicht die Verteilung der Teststatistik über Permutationen dieser Zuordnungen, um die Nullhypothese zu testen. In diesem Ansatz werden die Bestimmungen der Dame als fest angesehen (& die Grenzsummen von Milch- und Teebechern werden natürlich durch Permutation erhalten).

Scortchi - Wiedereinsetzung von Monica
quelle

Kann Barnard::barnardw.test()hier verwendet werden? Welcher Unterschied in der Rechenkomplexität ist in der Praxis zu erwarten?

krlmlr

Ich kenne dieses Paket nicht, aber die Hilfeseite, auf die Sie verweisen, verweist genau auf den Test, über den ich gesprochen habe. Siehe auch Exact. Was die Komplexität der Berechnungen betrifft, weiß ich nicht - es wird vom verwendeten Maximierungsalgorithmus abhängen.

Scortchi - Wiedereinsetzung von Monica

Heute habe ich die ersten Kapitel von "The Design of Experiments" von RA Fisher gelesen und in einem der Absätze wurde mir der grundlegende Fehler in meiner Frage klar.

Das heißt, auch wenn die Dame wirklich den Unterschied zwischen Milch- und Teebechern erkennen kann, kann ich niemals nachweisen, dass sie diese Fähigkeit "durch eine endliche Menge an Experimenten" besitzt. Aus diesem Grund sollte ich als Experimentatorin davon ausgehen, dass sie keine Fähigkeit besitzt (Nullhypothese) und versuchen, dies abzulehnen. Und der ursprüngliche Versuchsplan (Fisher-Exact-Test) ist ein ausreichendes, effizientes und vertretbares Verfahren, um dies zu tun.

Hier ist der Auszug aus "The Design of Experiments" von RA Fisher:

Es könnte argumentiert werden, dass, wenn ein Experiment die Hypothese widerlegen kann, dass das Subjekt keine sensorische Unterscheidung zwischen zwei verschiedenen Arten von Objekten besitzt, es in der Lage sein muss, die entgegengesetzte Hypothese zu beweisen, dass es eine solche Unterscheidung vornehmen kann. Aber diese letzte Hypothese, wie vernünftig oder wahr sie auch sein mag, ist als Nullhypothese, die experimentell getestet werden muss, nicht zulässig, weil sie ungenau ist. Wenn behauptet würde, dass das Thema in ihren Urteilen niemals falsch sein würde, hätten wir wieder eine exakte Hypothese, und es ist leicht zu sehen, dass diese Hypothese durch einen einzelnen Fehler widerlegt werden könnte , aber niemals durch eine endliche Menge an Experimenten bewiesen werden könnte .

Alby
quelle

Der Barnard-Test wird verwendet, wenn der Störparameter unter der Nullhypothese unbekannt ist.

Im Damentest könnte man jedoch argumentieren, dass der Störparameter unter der Nullhypothese auf 0,5 gesetzt werden kann (die nicht informierte Dame hat eine 50% ige Wahrscheinlichkeit, eine Tasse richtig zu erraten).

Dann wird die Anzahl der korrekten Vermutungen unter der Nullhypothese zu einer Binomialverteilung: Vermutung von 8 Bechern mit einer Wahrscheinlichkeit von 50% für jeden Becher.

In anderen Fällen haben Sie möglicherweise nicht diese unbedeutende Wahrscheinlichkeit von 50% für die Nullhypothese. Und ohne feste Margen wissen Sie möglicherweise nicht, wie hoch diese Wahrscheinlichkeit sein sollte. In diesem Fall brauchen Sie Barnards Test.

Selbst wenn Sie Barnards Test mit dem Lady Tasting Tea Test durchführen würden, würde er ohnehin 50% betragen (wenn das Ergebnis alle richtigen Vermutungen sind), da der Störparameter mit dem höchsten p-Wert 0,5 beträgt und zum trivialen Binomialtest führen würde ( es ist eigentlich die Kombination von zwei Binomialtests (einer für die vier ersten Tassen Milch und einer für die vier ersten Tassen Tee).

> library(Barnard)
> barnard.test(4,0,0,4)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            0
Outcome II           0            4

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -2.82843
Nuisance parameter = 0.5 (One sided), 0.5 (Two sided)
P-value = 0.00390625 (One sided), 0.0078125 (Two sided)

> dbinom(8,8,0.5)
[1] 0.00390625

> dbinom(4,4,0.5)^2
[1] 0.00390625

Im Folgenden sehen Sie, wie ein komplizierteres Ergebnis aussehen würde (wenn nicht alle Vermutungen korrekt sind, z. B. 2 gegen 4), wird das Zählen von Extremen und Nicht-Extremen etwas schwieriger

(Beachten Sie auch, dass der Barnard-Test im Fall eines 4-2-Ergebnisses einen Störparameter p = 0,686 verwendet, von dem Sie behaupten können, dass er nicht korrekt ist. Der p-Wert für die 50% ige Wahrscheinlichkeit, mit „Tee zuerst“ zu antworten, wäre 0,08203125. Dies wird noch kleiner , wenn Sie eine andere Region betrachten, statt die bereits basierend auf Walds Statistik, obwohl die Definition der Region ist nicht so einfach )

out <- rep(0,1000)
for (k in 1:1000) {
  p <- k/1000
  ps <- matrix(rep(0,25),5)   # probability for outcome i,j
  ts <- matrix(rep(0,25),5)   # distance of outcome i,j (using wald statistic)
  for (i in 0:4) {
    for (j in 0:4) {
      ps[i+1,j+1]  <- dbinom(i,4,p)*dbinom(j,4,p)
      pt <- (i+j)/8
      p1 <- i/4
      p2 <- j/4
      ts[i+1,j+1] <- (p2-p1)/sqrt(pt*(1-pt)*(0.25+0.25))
    }
  } 
  cases <- ts < ts[2+1,4+1]
  cases[1,1] = TRUE
  cases[5,5] = TRUE
  ps
  out[k] <- 1-sum(ps[cases])
}

> max(out)
[1] 0.08926748
> barnard.test(4,2,0,2)

Barnard's Unconditional Test

           Treatment I Treatment II
Outcome I            4            2
Outcome II           0            2

Null hypothesis: Treatments have no effect on the outcomes
Score statistic = -1.63299
Nuisance parameter = 0.686 (One sided), 0.314 (Two sided)
P-value = 0.0892675 (One sided), 0.178535 (Two sided)

Sextus Empiricus
quelle