Nichtparametrische Bootstrap-p-Werte gegenüber Konfidenzintervallen

11

Kontext

Dies ist dieser Frage etwas ähnlich , aber ich denke nicht, dass es sich um ein genaues Duplikat handelt.

Wenn Sie nach Anweisungen zum Durchführen eines Bootstrap-Hypothesentests suchen, wird normalerweise angegeben, dass es in Ordnung ist, die empirische Verteilung für Konfidenzintervalle zu verwenden, dass Sie jedoch korrekt von der Verteilung unter der Nullhypothese booten müssen, um einen p- zu erhalten. Wert. Sehen Sie sich als Beispiel die akzeptierte Antwort auf diese Frage an . Eine allgemeine Suche im Internet scheint meist ähnliche Antworten zu liefern.

Der Grund dafür, dass kein p-Wert basierend auf der empirischen Verteilung verwendet wird, ist, dass wir die meiste Zeit keine Übersetzungsinvarianz haben.

Beispiel

Lassen Sie mich ein kurzes Beispiel geben. Wir haben eine Münze und möchten einen einseitigen Test durchführen, um festzustellen, ob die Häufigkeit der Köpfe größer als 0,5 ist

Wir führen n=20 Versuche durch und erhalten k=14 Köpfe. Der wahre p-Wert für diesen Test wäre p=0,058 .

Wenn wir dagegen unsere 14 von 20 Köpfen booten, nehmen wir effektiv eine Stichprobe aus der Binomialverteilung mit n=20 und p=1420=0,7. Wenn wir diese Verteilung durch Subtrahieren von 0,2 verschieben, erhalten wir ein kaum signifikantes Ergebnis, wenn wir unseren beobachteten Wert von 0,7 gegen die erhaltene empirische Verteilung testen.

In diesem Fall ist die Diskrepanz sehr gering, wird jedoch größer, wenn die Erfolgsrate, gegen die wir testen, nahe bei 1 liegt.

Frage

Lassen Sie mich nun zum eigentlichen Punkt meiner Frage kommen: Der gleiche Fehler gilt auch für Konfidenzintervalle. Wenn ein Konfidenzintervall das angegebene Konfidenzniveau α hat, entspricht das Konfidenzintervall, das den Parameter unter der Nullhypothese nicht enthält, der Zurückweisung der Nullhypothese bei einem Signifikanzniveau von 1- -α .

Warum werden die auf der empirischen Verteilung basierenden Konfidenzintervalle weitgehend akzeptiert und der p-Wert nicht?

Gibt es einen tieferen Grund oder sind die Menschen mit Konfidenzintervallen nicht so konservativ?

In dieser Antwort gibt Peter Dalgaard eine Antwort, die meiner Argumentation zuzustimmen scheint. Er sagt:

An dieser Argumentation ist nichts besonders Falsches oder zumindest nicht (viel) schlechter als die Berechnung des CI.

Woher kommt das (viel)? Dies impliziert, dass das Erzeugen von p-Werten auf diese Weise etwas schlechter ist, aber nicht näher darauf eingeht.

Abschließende Gedanken

Auch in einer Einführung in den Bootstrap von Efron und Tibshirani widmen sie den Konfidenzintervallen viel Raum, aber nicht den p-Werten, es sei denn, sie werden unter einer korrekten Nullhypothesenverteilung erzeugt, mit Ausnahme einer Wegwerflinie über die allgemeine Äquivalenz von Konfidenzintervalle und p-Werte im Kapitel über Permutationstests.

Kommen wir auch zu der ersten Frage zurück, die ich verlinkt habe. Ich stimme der Antwort von Michael Chernick zu, aber er argumentiert auch, dass sowohl Konfidenzintervalle als auch p-Werte, die auf der empirischen Bootstrap-Verteilung basieren, in einigen Szenarien gleichermaßen unzuverlässig sind. Es erklärt nicht, warum Sie viele Leute finden, die Ihnen sagen, dass die Intervalle in Ordnung sind, die p-Werte jedoch nicht.

Erik
quelle
Ich beginne mit einer Prämie für diese Frage, da ich sehr daran interessiert bin, Klarheit darüber zu gewinnen, wie und wann Bootstrap-CIs verwendet werden können, um eine Hypothese zu akzeptieren / abzulehnen. Vielleicht könnten Sie Ihre Frage umformulieren / neu formatieren, um sie prägnanter und ansprechender zu gestalten? Vielen Dank !
Xavier Bourret Sicotte
Ich denke, dass die meisten Menschen der Meinung sind, dass die Verwendung des CI für den Hypothesentest in Ordnung ist, wenn die folgenden Annahmen zutreffen: symmetrische Verteilung der Teststatistik, zentrale Teststatistik, CLT-Anwendung, keine oder nur wenige Störparameter usw. Aber was passiert, wenn die Statistik ist seltsam oder ist nachweislich nicht entscheidend. Hier ist ein reales Beispiel, an dem ich arbeite: zB zwei Stichprobenunterschiede zwischen den 75. Perzentilen einer Verhältnisstatistik (Verhältnis von zwei Summen)
Xavier Bourret Sicotte
Ist die einfache Antwort nicht nur, dass es klar ist, wie man unter der Nullhypothese tastet, also gibt es eine alternative Methode, die eindeutig besser ist? Die Abtastung unter dem Bootstrap erfolgt im Allgemeinen unter der empirischen Verteilung, also dem wahren Datenerzeugungsmechanismus, so dass dies eindeutig nicht verwendet werden sollte, anstatt nur die Abtastung unter der Null. Das Bootstrap-CI wird durch Invertieren der Stichprobenverteilung unter dem Mechanismus zur Erzeugung echter Daten ermittelt. Es ist wahr, dass dieses CI möglicherweise nicht gut funktioniert, aber wie Dalgaard sagte, ist es nicht unbedingt offensichtlich, wie es behoben werden kann.
Jsk
Ich sollte klarstellen, dass die empirische Verteilung nur eine Annäherung an den tatsächlichen Datenerzeugungsmechanismus ist. Das Ausmaß, in dem es nicht repräsentativ für die Wahrheit ist, wirkt sich negativ auf das Bootstrap-CI in unbekannten Richtungen aus, was zu einer Abdeckung von weniger als 95% führt.
Jsk
1
Die Abtastung unter der Null ist klar, wenn der Test eine Differenz der Mittelwerte ist, aber in vielen Fällen ist es nicht offensichtlich, wie die Null reproduziert werden soll ... zum Beispiel ist die Null, dass das 75. Perzentil zweier Verhältnisse das gleiche ist ... wie Verschiebe ich die Zähler und Nenner der Verhältnisse in jeder Stichprobe, um das zu erhalten? Wie kann ich auch sicher sein, dass das Verschieben der Komponenten des Verhältnisses tatsächlich die Null reproduziert?
Xavier Bourret Sicotte

Antworten:

3

Wie @MichaelChernick als Antwort auf einen Kommentar zu seiner Antwort auf eine verknüpfte Frage sagte :

Im Allgemeinen besteht eine 1-1-Entsprechung zwischen Konfidenzintervallen und Hypothesentests. Beispielsweise repräsentiert ein 95% -Konfidenzintervall für einen Modellparameter den Nicht-Zurückweisungsbereich für den entsprechenden 5% -Pegel-Hypothesentest bezüglich des Werts dieses Parameters. Die Form der Bevölkerungsverteilung ist nicht erforderlich. Wenn es allgemein für Konfidenzintervalle gilt, gilt es natürlich für Bootstrap-Konfidenzintervalle.

Diese Antwort wird sich also mit zwei damit verbundenen Problemen befassen: (1) Warum scheinen Präsentationen von Bootstrap-Ergebnissen häufiger Konfidenzintervalle (CI) als p- Werte anzugeben , wie in der Frage vorgeschlagen, und (2) wann könnten beide p- Werte angegeben werden und CI, die durch Bootstrap bestimmt werden, werden als unzuverlässig verdächtigt, was einen alternativen Ansatz erfordert.

Ich kenne keine Daten, die speziell die Behauptung in dieser Frage zur ersten Ausgabe stützen. Vielleicht sind (oder scheinen) in der Praxis viele vom Bootstrap abgeleitete Punktschätzungen so weit von den Grenzen der Testentscheidung entfernt, dass der p- Wert der entsprechenden Nullhypothese wenig Interesse hat , wobei das Hauptinteresse an der Punktschätzung selbst und an ein vernünftiges Maß für die Größe seiner wahrscheinlichen Variabilität.

In Bezug auf das zweite Problem umfassen viele praktische Anwendungen "symmetrische Verteilung der Teststatistik, zentrale Teststatistik, CLT-Anwendung, keine oder nur wenige Störparameter usw." (wie in einem Kommentar von @XavierBourretSicotte oben), für die es kaum Schwierigkeiten gibt. Es stellt sich dann die Frage, wie mögliche Abweichungen von diesen Bedingungen erkannt und wie mit ihnen umgegangen werden kann, wenn sie auftreten.

Diese möglichen Abweichungen vom idealen Verhalten werden seit Jahrzehnten erkannt , und mehrere Bootstrap-CI-Ansätze wurden frühzeitig entwickelt, um sie zu bewältigen. Der studentisierte Bootstrap hilft dabei, eine zentrale Statistik bereitzustellen , und die BCa-Methode berücksichtigt sowohl die Verzerrung als auch die Schiefe, um zuverlässigere CI aus Bootstraps zu erhalten. Eine varianzstabilisierende Transformation von Daten vor der Bestimmung des Bootstrap-CI, gefolgt von einer Rücktransformation auf die ursprüngliche Skala, kann ebenfalls hilfreich sein.

Das Beispiel in dieser Frage zur Probenahme von 14 Köpfen aus 20 Würfen einer fairen Münze wird mithilfe von CI nach der BCa-Methode gut behandelt. in R:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Die anderen CI-Schätzungen werfen das festgestellte Problem auf, sehr nahe am oder am Rande des Bevölkerungswerts von 10 Köpfen pro 20 Würfe zu liegen. Das BCa-CI berücksichtigt die Schiefe (wie durch Binomial-Stichproben ohne gerade Gewinnchancen eingeführt), sodass der Bevölkerungswert von 10 gut berücksichtigt wird.

Sie müssen jedoch nach solchen Abweichungen vom idealen Verhalten suchen, bevor Sie diese Lösungen nutzen können. Wie in so vielen statistischen Praktiken kann es entscheidend sein, die Daten tatsächlich zu betrachten, anstatt sie nur in einen Algorithmus einzufügen. Diese Frage zu CI für ein voreingenommenes Bootstrap-Ergebnis zeigt beispielsweise Ergebnisse für die ersten 3 CI, die im obigen Code gezeigt sind, schließt jedoch das BCa-CI aus. Als ich versuchte, die in dieser Frage gezeigte Analyse unter Einbeziehung von BCa CI zu reproduzieren, erhielt ich das Ergebnis:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

wobei 'w' an der Vorspannungskorrektur beteiligt ist. Die untersuchte Statistik hat einen festen Maximalwert und die Plug-In-Schätzung, die gebootet wurde, war ebenfalls von Natur aus voreingenommen. Ein solches Ergebnis sollte darauf hinweisen, dass die üblichen Annahmen, die dem Bootstrap-CI zugrunde liegen, verletzt werden.

Durch die Analyse einer Schlüsselgröße werden solche Probleme vermieden. Auch wenn eine empirische Verteilung keine nützlichen, streng zentralen Statistiken enthalten kann, ist es ein wichtiges Ziel, so nah wie möglich zu kommen. Die letzten Absätze von dieser Antwort enthalten Links zu weiteren Hilfsmitteln, z. B. Pivot-Plots, mit denen über den Bootstrap geschätzt werden kann, ob eine Statistik (möglicherweise nach einer gewissen Datentransformation) nahe am Pivot liegt, und dem rechenintensiven, aber möglicherweise entscheidenden Doppel-Bootstrap.

EdM
quelle
Danke edm! Wenn zwischen CI und Hypothesentest eine 1: 1-Rekation besteht, warum werden beim Bootstrap-Test normalerweise die Datensätze verschoben, um die Null zu reproduzieren? Erhalten wir auf diese Weise nicht andere Ergebnisse als beispielsweise durch Berechnung des CI der Differenzverteilung?
Xavier Bourret Sicotte
@XavierBourretSicotte Ich denke nicht, dass es ganz richtig ist, dass "Bootstrap-Tests normalerweise das Verschieben der Datensätze beinhalten, um die Null zu reproduzieren." Jedes Bootstrap-Beispiel ist ein Versuch, das ursprüngliche Beispiel / Experiment zu replizieren, wobei das vorliegende Beispiel verwendet wird, um die zugrunde liegende Population darzustellen. Wenn die fragliche Statistik jedoch nicht entscheidend ist, repräsentiert das CI, das für die Bootstrap-Stichproben entwickelt wurde, nicht das CI, das für die zugrunde liegende Population entwickelt wurde. Sie müssen also die Verteilung der Statistik auf das korrigieren, was unter Null gewesen wäre, mit BCa oder anderen Ansätzen.
EdM