Kontext
Dies ist dieser Frage etwas ähnlich , aber ich denke nicht, dass es sich um ein genaues Duplikat handelt.
Wenn Sie nach Anweisungen zum Durchführen eines Bootstrap-Hypothesentests suchen, wird normalerweise angegeben, dass es in Ordnung ist, die empirische Verteilung für Konfidenzintervalle zu verwenden, dass Sie jedoch korrekt von der Verteilung unter der Nullhypothese booten müssen, um einen p- zu erhalten. Wert. Sehen Sie sich als Beispiel die akzeptierte Antwort auf diese Frage an . Eine allgemeine Suche im Internet scheint meist ähnliche Antworten zu liefern.
Der Grund dafür, dass kein p-Wert basierend auf der empirischen Verteilung verwendet wird, ist, dass wir die meiste Zeit keine Übersetzungsinvarianz haben.
Beispiel
Lassen Sie mich ein kurzes Beispiel geben. Wir haben eine Münze und möchten einen einseitigen Test durchführen, um festzustellen, ob die Häufigkeit der Köpfe größer als 0,5 ist
Wir führen Versuche durch und erhalten Köpfe. Der wahre p-Wert für diesen Test wäre .
Wenn wir dagegen unsere 14 von 20 Köpfen booten, nehmen wir effektiv eine Stichprobe aus der Binomialverteilung mit und . Wenn wir diese Verteilung durch Subtrahieren von 0,2 verschieben, erhalten wir ein kaum signifikantes Ergebnis, wenn wir unseren beobachteten Wert von 0,7 gegen die erhaltene empirische Verteilung testen.
In diesem Fall ist die Diskrepanz sehr gering, wird jedoch größer, wenn die Erfolgsrate, gegen die wir testen, nahe bei 1 liegt.
Frage
Lassen Sie mich nun zum eigentlichen Punkt meiner Frage kommen: Der gleiche Fehler gilt auch für Konfidenzintervalle. Wenn ein Konfidenzintervall das angegebene Konfidenzniveau hat, entspricht das Konfidenzintervall, das den Parameter unter der Nullhypothese nicht enthält, der Zurückweisung der Nullhypothese bei einem Signifikanzniveau von .
Warum werden die auf der empirischen Verteilung basierenden Konfidenzintervalle weitgehend akzeptiert und der p-Wert nicht?
Gibt es einen tieferen Grund oder sind die Menschen mit Konfidenzintervallen nicht so konservativ?
In dieser Antwort gibt Peter Dalgaard eine Antwort, die meiner Argumentation zuzustimmen scheint. Er sagt:
An dieser Argumentation ist nichts besonders Falsches oder zumindest nicht (viel) schlechter als die Berechnung des CI.
Woher kommt das (viel)? Dies impliziert, dass das Erzeugen von p-Werten auf diese Weise etwas schlechter ist, aber nicht näher darauf eingeht.
Abschließende Gedanken
Auch in einer Einführung in den Bootstrap von Efron und Tibshirani widmen sie den Konfidenzintervallen viel Raum, aber nicht den p-Werten, es sei denn, sie werden unter einer korrekten Nullhypothesenverteilung erzeugt, mit Ausnahme einer Wegwerflinie über die allgemeine Äquivalenz von Konfidenzintervalle und p-Werte im Kapitel über Permutationstests.
Kommen wir auch zu der ersten Frage zurück, die ich verlinkt habe. Ich stimme der Antwort von Michael Chernick zu, aber er argumentiert auch, dass sowohl Konfidenzintervalle als auch p-Werte, die auf der empirischen Bootstrap-Verteilung basieren, in einigen Szenarien gleichermaßen unzuverlässig sind. Es erklärt nicht, warum Sie viele Leute finden, die Ihnen sagen, dass die Intervalle in Ordnung sind, die p-Werte jedoch nicht.
Antworten:
Wie @MichaelChernick als Antwort auf einen Kommentar zu seiner Antwort auf eine verknüpfte Frage sagte :
Diese Antwort wird sich also mit zwei damit verbundenen Problemen befassen: (1) Warum scheinen Präsentationen von Bootstrap-Ergebnissen häufiger Konfidenzintervalle (CI) als p- Werte anzugeben , wie in der Frage vorgeschlagen, und (2) wann könnten beide p- Werte angegeben werden und CI, die durch Bootstrap bestimmt werden, werden als unzuverlässig verdächtigt, was einen alternativen Ansatz erfordert.
Ich kenne keine Daten, die speziell die Behauptung in dieser Frage zur ersten Ausgabe stützen. Vielleicht sind (oder scheinen) in der Praxis viele vom Bootstrap abgeleitete Punktschätzungen so weit von den Grenzen der Testentscheidung entfernt, dass der p- Wert der entsprechenden Nullhypothese wenig Interesse hat , wobei das Hauptinteresse an der Punktschätzung selbst und an ein vernünftiges Maß für die Größe seiner wahrscheinlichen Variabilität.
In Bezug auf das zweite Problem umfassen viele praktische Anwendungen "symmetrische Verteilung der Teststatistik, zentrale Teststatistik, CLT-Anwendung, keine oder nur wenige Störparameter usw." (wie in einem Kommentar von @XavierBourretSicotte oben), für die es kaum Schwierigkeiten gibt. Es stellt sich dann die Frage, wie mögliche Abweichungen von diesen Bedingungen erkannt und wie mit ihnen umgegangen werden kann, wenn sie auftreten.
Diese möglichen Abweichungen vom idealen Verhalten werden seit Jahrzehnten erkannt , und mehrere Bootstrap-CI-Ansätze wurden frühzeitig entwickelt, um sie zu bewältigen. Der studentisierte Bootstrap hilft dabei, eine zentrale Statistik bereitzustellen , und die BCa-Methode berücksichtigt sowohl die Verzerrung als auch die Schiefe, um zuverlässigere CI aus Bootstraps zu erhalten. Eine varianzstabilisierende Transformation von Daten vor der Bestimmung des Bootstrap-CI, gefolgt von einer Rücktransformation auf die ursprüngliche Skala, kann ebenfalls hilfreich sein.
Das Beispiel in dieser Frage zur Probenahme von 14 Köpfen aus 20 Würfen einer fairen Münze wird mithilfe von CI nach der BCa-Methode gut behandelt. in R:
Die anderen CI-Schätzungen werfen das festgestellte Problem auf, sehr nahe am oder am Rande des Bevölkerungswerts von 10 Köpfen pro 20 Würfe zu liegen. Das BCa-CI berücksichtigt die Schiefe (wie durch Binomial-Stichproben ohne gerade Gewinnchancen eingeführt), sodass der Bevölkerungswert von 10 gut berücksichtigt wird.
Sie müssen jedoch nach solchen Abweichungen vom idealen Verhalten suchen, bevor Sie diese Lösungen nutzen können. Wie in so vielen statistischen Praktiken kann es entscheidend sein, die Daten tatsächlich zu betrachten, anstatt sie nur in einen Algorithmus einzufügen. Diese Frage zu CI für ein voreingenommenes Bootstrap-Ergebnis zeigt beispielsweise Ergebnisse für die ersten 3 CI, die im obigen Code gezeigt sind, schließt jedoch das BCa-CI aus. Als ich versuchte, die in dieser Frage gezeigte Analyse unter Einbeziehung von BCa CI zu reproduzieren, erhielt ich das Ergebnis:
wobei 'w' an der Vorspannungskorrektur beteiligt ist. Die untersuchte Statistik hat einen festen Maximalwert und die Plug-In-Schätzung, die gebootet wurde, war ebenfalls von Natur aus voreingenommen. Ein solches Ergebnis sollte darauf hinweisen, dass die üblichen Annahmen, die dem Bootstrap-CI zugrunde liegen, verletzt werden.
Durch die Analyse einer Schlüsselgröße werden solche Probleme vermieden. Auch wenn eine empirische Verteilung keine nützlichen, streng zentralen Statistiken enthalten kann, ist es ein wichtiges Ziel, so nah wie möglich zu kommen. Die letzten Absätze von dieser Antwort enthalten Links zu weiteren Hilfsmitteln, z. B. Pivot-Plots, mit denen über den Bootstrap geschätzt werden kann, ob eine Statistik (möglicherweise nach einer gewissen Datentransformation) nahe am Pivot liegt, und dem rechenintensiven, aber möglicherweise entscheidenden Doppel-Bootstrap.
quelle