Mit Bootstrap berechne ich p-Werte von Signifikanztests mit zwei Methoden:
- Resampling unter der Nullhypothese und Zählen der Ergebnisse mindestens so extrem wie das Ergebnis aus den Originaldaten
- Resampling unter der alternativen Hypothese und Zählen der Ergebnisse, die mindestens so weit vom ursprünglichen Ergebnis entfernt sind wie der Wert, der der Nullhypothese entspricht
Ich glaube , dass der 1 st Ansatz ganz korrekt ist , wie es die Definition von einem p - Wert folgt. Bei der zweiten bin ich mir weniger sicher, aber sie liefert normalerweise sehr ähnliche Ergebnisse und erinnert mich an einen Wald-Test.
Habe ich recht? Sind beide Methoden korrekt? Sind sie identisch (für große Proben)?
Beispiele für die beiden Methoden (Änderungen nach DWins Fragen und Eriks Antwort):
Beispiel 1. Erstellen wir einen Bootstrap-Test ähnlich dem T-Test mit zwei Beispielen. Methode 1 wird von einer Probe erneut abgetastet (erhalten durch Zusammenführen der beiden ursprünglichen). Methode 2 wird unabhängig von beiden Proben erneut abgetastet.Beispiel 2. Lassen Sie uns einen Bootstrap-Test der Korrelation zwischen x₁… xₐ und y₁… yₐ erstellen. Methode 1 nimmt keine Korrelation und kein Resample an und erlaubt (xₑ, yₔ) Paare, wobei e ≠ ≠ ist. Methode 2 kompiliert ein Bootstrap-Beispiel der ursprünglichen (x, y) Paare.
Beispiel 3. Lassen Sie uns einen Bootstrap-Test erstellen, um zu überprüfen, ob eine Münze fair ist. Methode 1 erstellt Zufallsstichproben mit der Einstellung Pr (Kopf) = Pr (Schwanz) = ½. Methode 2 wird die Probe der experimentellen Kopf / Schwanz-Werte erneut abtasten und die Proportionen mit ½ vergleichen.
Antworten:
Der erste Ansatz ist klassisch und vertrauenswürdig, kann aber nicht immer verwendet werden. Um Bootstrap-Beispiele unter der Annahme der Nullhypothese zu erhalten, müssen Sie entweder bereit sein, eine theoretische Verteilung anzunehmen ( dies ist Ihre erste Option ) oder anzunehmen, dass Ihre interessierende Statistik dieselbe Verteilungsform hat, wenn sie zur Nullhypothese verschoben wird ( Ihre zweite Option) ). Beispielsweise hat unter der üblichen Annahme die t-Verteilung die gleiche Form, wenn sie zu einem anderen Mittelwert verschoben wird. Wenn Sie jedoch die Nullfrequenz von 0,5 einer Binomialverteilung auf 0,025 ändern, ändert sich auch die Form.
Nach meiner Erfahrung haben Sie ansonsten, falls Sie bereit sind, diese Annahmen zu treffen, häufig auch andere Optionen. In Ihrem Beispiel 1), in dem Sie davon ausgehen, dass beide Stichproben aus derselben Grundpopulation stammen könnten, wäre meiner Meinung nach ein Permutationstest besser.
Es gibt eine andere Option (die Sie anscheinend als zweite Wahl ausgewählt haben), die auf Bootstrap-Konfidenzintervallen basiert. Grundsätzlich wird davon ausgegangen, dass die Signifikanz auf einer Ebene von der Nullhypothese entspricht, die nicht im -Konfidenzintervall enthalten ist , wenn Ihre angegebene Abdeckung gilt . Siehe zum Beispiel diese Frage: Was ist der Unterschied zwischen Konfidenzintervallen und Hypothesentests?( 1 - α )α (1−α)
Dies ist eine sehr flexible Methode, die für viele Tests anwendbar ist. Es ist jedoch sehr wichtig, gute Bootstrap-Konfidenzintervalle zu erstellen und nicht nur Wald-Approximationen oder die Perzentilmethode zu verwenden. Einige Informationen finden Sie hier: Bootstrap-basiertes Konfidenzintervall
quelle