Ist die Re-Randomisierung ein gültiger Ansatz zur Schätzung der statistischen Signifikanz?

7

Ich bin ein Neuling in Statistik und nehme an einem Kurs der Khan Academy teil . Es gibt ein Video, das ich nicht ganz verstehe.

Hier ist das Wesentliche. Eine Statistikerin möchte wissen, mit welchem Bus sie schneller arbeiten kann: A oder B. Während 50 Tagen nimmt sie entweder Bus A oder Bus B und zeichnet die verstrichene Zeit auf. Dann berechnet sie die mittlere verstrichene Zeit für jeden Bus und stellt fest, dass der Unterschied zwischen ihnen 8 beträgt (A ist schneller). All dies ist für mich sehr klar.

Jetzt kommt unklarer Teil. Um die statistische Signifikanz zu testen, führt sie eine Re-Randomisierung durch: Sie mischt einfach alle Beobachtungen, teilt sie in zwei gleiche Gruppen ein und findet den Medianunterschied. Sie wiederholt dies viele Male. Dann findet sie heraus, dass Ergebnis 8 in 9,3% der Re-Randomisierungen herauskommt, und kommt zu dem Schluss, dass ihr erstes Ergebnis statistisch nicht signifikant ist.

Ich verstehe nicht, warum es eine Möglichkeit ist, die statistische Signifikanz abzuschätzen. Hier ist ein etwas extremes Beispiel. Stellen Sie sich vor, Bus A dauert immer 9 Minuten. Und Bus B dauert immer 10 Minuten. Ich habe mehrere Re-Randomisierungssimulationen für diese Daten durchgeführt (z. B. 1000 Schätzungen für A und B und 100000 Re-Randomisierungsrunden) und bei ~ 50% der Re-Randomisierungen das Ergebnis 1 erhalten (und das ist für mich intuitiv). Bedeutet das, dass die Ergebnisse tatsächlich statistisch nicht signifikant sind (das ist seltsam, der Gewinner ist sehr klar)? Oder hat die Re-Randomisierung eine begrenzte (oder keine) Anwendung bei der Schätzung der statistischen Signifikanz?

Ich weiß, dass es bessere (und häufigere) Möglichkeiten gibt, die Signifikanz abzuschätzen. Meine Frage betrifft die Re-Randomisierung.

statistical-significance permutation-test DrTyrsa
quelle

5

Die Idee eines Randomisierungstests ist, dass, wenn eine bestimmte Behandlung keinen Einfluss auf ein Ergebnis hat, die Zuordnung dieser Behandlung nur eine Art willkürliche Kennzeichnung ist. ( Der exakte Fisher-Test war die erste Methode, die auf diesem Konzept basierte.) Wenn wir nun eine Statistik haben und deren Verteilung unter der Nullhypothese ohne Behandlungseffekt wissen möchten, können wir diese Nullverteilung durch Simulation durch zufälliges Umbenennen der Beobachtungen und Betrachtung des Verhaltens unserer Statistik in dieser Umgebung, denn dann ist die Nullhypothese effektiv wahr.

Das Beispiel, das Sie geben, ist interessant, aber beachten Sie, dass es nicht die Größe des Unterschieds in der durchschnittlichen Zeit ist, den wir als Beweis dafür nehmen würden, dass Bus A schneller ist, sondern die Tatsache, dass Bus A immer schneller ist. Eine vernünftigere Teststatistik wäre also etwas, das dies direkter misst, wie die Statistik, die in Wilcoxons Rang-Summen-Test verwendet wird . Wenn Sie stattdessen einen Randomisierungstest mit einer Rangsummenstatistik durchführen würden, würden Sie ein hoch "signifikantes" Ergebnis erhalten.

dsaxton
quelle

2

Außerdem ist der Simulationsteil für die Durchführung eines Randomisierungstests nicht erforderlich, sondern lediglich eine rechnerische Methode zur Approximation der Nullverteilung. In einigen Fällen kann die Nullverteilung analytisch bestimmt werden (abhängig von den Werten der Antwort).

Dsaxton

3

Okay, ich bin ein bisschen zu spät zu dieser Party, aber obwohl ich dem zustimme, was Dsaxton im ersten Absatz sagt, denke ich, dass der zweite Absatz verloren geht.

Die Re-Randomisierung funktioniert sehr gut, um die Nullverteilung für eine Vielzahl von Statistiken anzugeben. Sie haben es jedoch geschafft, ein Problem zu verursachen, indem Sie zwei pathologische Verteilungen (Punktverteilungen auf 9 bzw. 10 zentriert) mit dem Median kombiniert haben - eine Statistik, die möglicherweise am wenigsten nützlich ist, wenn es nur zwei mögliche Werte gibt, weil sie werden können sehr instabil.

Ich werde versuchen, Vergleiche für mehrere Stichprobengrößen durchzugehen, um zu zeigen, was hier passiert. Dies sollte dazu beitragen, die Einsicht von dsaxton zu erklären, dass in der Konsistenz die tatsächliche statistische Aussagekraft liegt.

Stellen Sie sich vor, wir fahren mit jedem Bus eine Fahrt. Wir erhalten eine 9 und eine 10. Wir randomisieren 10.000 Mal, um Schlussfolgerungen zu ziehen. In der Hälfte von ihnen wechseln die Positionen, in der Hälfte nicht. Wenn wir also die Mediane messen, beträgt die Hälfte der Zeit die Differenz der Mediane -1 und die Hälfte der Zeit 1. In ähnlicher Weise beträgt die Hälfte der Zeit die Differenz der Mittel -1 und die Hälfte der Zeit 1 .

Stellen Sie sich nun vor, wir hätten 10 Fahrten mit jedem Bus gemacht, was zu zehn Zehnern und zehn Neunern führte. Wir randomisieren neu. Diesmal führen die meisten Randomisierungen dazu, dass in jeder Stichprobe etwa fünf von jeweils 10 und 9 vorhanden sind. Die Mittelwerte bilden für jede Stichprobe normale Verteilungen (tatsächlich ein verschobenes Binomial) um 9,5, was eine Differenz ergibt, die auf 0 zentriert ist. Die Differenz der Mediane kann gelegentlich 0 sein - wenn wir tatsächlich jeweils fünf Mal in jeder Stichprobe erhalten - was Mediane ergibt in jeder Stichprobe von 9,5, aber es ist wahrscheinlicher, ein leichtes Ungleichgewicht zu haben. Dieses leichte Ungleichgewicht ergibt die Mediane 9 und 10 oder 10 und 9. Daher beträgt die Differenz der Mediane meistens entweder -1 oder 1, was unserem tatsächlichen Ergebnis ähnlich ist und den extra hohen p-Wert ergibt.

Es mag so aussehen, als würde eine weitere Erhöhung der Anzahl der Busfahrten dieses Problem beheben, aber während dies den Mittelwert stabiler macht - und die Null fest um 0 festlegt, destabilisiert es tatsächlich den Median. Es wird immer weniger wahrscheinlich, dass genau diese Übereinstimmung erzielt wird, und so verschwindet der Mittelweg.

Okay. Vielleicht machte das Sinn. Ich werde einen R-Code einfügen, um dies konkret zu machen.

n = 10
a = rep(10,n) #initial samples 
b = rep(9,n)
joint.sample = c(a,b) #Combining samples for ease
bootstraps = 10000 #Number of replications

est.mean = mean(a) - mean(b) #Estimate of treatment    
boot.mean = replicate(bootstraps, {
  new.sample = sample(joint.sample)
  mean(new.sample[1:n]) - mean(new.sample[1:n+n])
}) #Simply resamples and takes means of the two groups
CI.mean = quantile(boot.mean,prob=c(0.025,0.975) #Calculates a CI
pval.mean = mean(boot.mean >= est.mean)*2 #Two-sided p-value

#Same things but with median
est.median = median(a)-median(b)
boot.median = replicate(bootstraps, {
  new.sample = sample(joint.sample)
  median(new.sample[1:n]) - median(new.sample[1:n+n])
})
CI.median = quantile(boot.median,prob=c(0.025,0.975) 
pval.median = mean(boot.median >= est.median)*2

Das sollte für Sie Ergebnisse liefern, die zeigen, dass eine Randomisierung mit einem Mittelwert stark ablehnen würde, dass diese gleich waren. Sie können gerne mit der Stichprobengröße n herumspielen, um zu sehen, wie sich dies auf die Dinge auswirkt. In einem so eindeutigen Fall ist jedoch meistens keine große Stichprobe erforderlich, um den Unterschied zu erkennen. Sie sollten auch in der Lage sein, die Verwendung eines Medians abzulehnen - Sie benötigen jedoch ein anderes Verteilungspaar, sodass sich die Mediane etwas mehr bewegen. Alles, was kontinuierlich ist, sollte ich denken, und dann ist es eine Frage der Stichprobengröße.

Ein Hinweis zur Vorsicht. Ich habe die Standardeinstellungen für die Beispielfunktion hier verwendet, um zu bestimmen, ob ich mit oder ohne Ersatz unterwegs bin. Im Allgemeinen möchten Sie sich genau überlegen, welchen Stichprobentyp Sie verwenden, da dies die Ergebnisse beeinflussen kann und wird.

user5957401
quelle

Ist die Re-Randomisierung ein gültiger Ansatz zur Schätzung der statistischen Signifikanz?

Antworten: