Wie führt man einen Bootstrap-Test durch, um die Mittelwerte zweier Stichproben zu vergleichen?

12

Ich habe zwei stark verzerrte Stichproben und versuche, mithilfe von Bootstrapping ihre Mittelwerte mithilfe der t-Statistik zu vergleichen.

Wie ist die richtige Vorgehensweise dafür?


Der Prozess, den ich benutze

Ich bin besorgt über die Angemessenheit der Verwendung des Standardfehlers der ursprünglichen / beobachteten Daten im letzten Schritt, wenn ich weiß, dass dies nicht normal verteilt ist.

Hier sind meine Schritte:

  • Bootstrap - Zufallsstichprobe mit Ersatz (N = 1000)
  • Berechnen Sie die t-Statistik für jeden Bootstrap, um eine t-Verteilung zu erstellen:
    T(b)=(X¯b1-X¯b2)-(X¯1-X¯2)σxb12/n+σxb22/n
  • Schätzen Sie die t-Konfidenzintervalle, indem Sie und Perzentile der t-Verteilung erhalten1 - α / 2α/21-α/2
  • Erhalten Sie Konfidenzintervalle über:

    C I U = ( ¯ X 1 - ¯ X 2 ) + T _ C I U . S E o r i g i n a l

    CichL=(X¯1-X¯2)-T_CichL.SEÖrichGichneinl
    CichU=(X¯1-X¯2)+T_CichU.SEÖrichGichneinl
    wobei
    SE=σX12/n+σX22/n
  • Prüfen Sie, wo die Konfidenzintervalle liegen, um festzustellen, ob ein signifikanter Mittelwertunterschied vorliegt (dh nicht Null).

Ich habe mir auch die Wilcoxon-Rang-Summe angesehen, aber sie liefert aufgrund der sehr stark verzerrten Verteilung (z. B. das 75. == 95. Perzentil) keine sehr vernünftigen Ergebnisse. Aus diesem Grund möchte ich den Bootstrapped-T-Test weiter untersuchen.

Meine Fragen sind also:

  1. Ist das eine angemessene Methodik?
  2. Ist es angemessen, die SE der beobachteten Daten zu verwenden, wenn ich weiß, dass sie stark verzerrt sind?

Mögliches Duplikat: Welche Methode wird bevorzugt, ein Bootstrapping-Test oder ein nichtparametrischer rangbasierter Test?

CatsLoveJazz
quelle
Wie groß sind die Proben?
Michael M
@ Michael Mayer Um 800
CatsLoveJazz
Siehe auch stats.stackexchange.com/questions/189587
Amöbe sagt Reinstate Monica

Antworten:

16

Ich würde einfach einen regulären Bootstrap-Test machen:

  • Berechnen Sie die T-Statistik in Ihren Daten und speichern Sie sie
  • Ändern Sie die Daten so, dass die Nullhypothese wahr ist. In diesem Fall subtrahieren Sie den Mittelwert in Gruppe 1 für Gruppe 1 und addieren Sie den Gesamtmittelwert. Tun Sie dasselbe für Gruppe 2, sodass der Mittelwert in beiden Gruppen der Gesamtmittelwert ist.
  • Entnehmen Sie diesem Datensatz Bootstrap-Beispiele, wahrscheinlich in der Größenordnung von 20.000.
  • Berechnen Sie die t-Statistik in jedem dieser Bootstrap-Beispiele. Die Verteilung dieser t-Statistiken ist die Bootstrap-Schätzung der Stichprobenverteilung der t-Statistik in Ihren verzerrten Daten, wenn die Nullhypothese wahr ist.
  • p(+1)(+1)

Mehr dazu lesen Sie in:

  • Kapitel 4 von AC Davison und DV Hinkley (1997) Bootstrap Methods und ihre Anwendung . Cambridge: Cambridge University Press.

  • Kapitel 16 von Bradley Efron und Robert J. Tibshirani (1993) Eine Einführung in den Bootstrap . Boca Raton: Chapman & Hall / CRC.

  • Wikipedia-Eintrag zum Testen von Bootstrap-Hypothesen.

Maarten Buis
quelle
Dies ist im Wesentlichen das, was ich tue, aber unter Berücksichtigung des Anteils, in dem die ursprüngliche / beobachtete t-Statistik> = bootsrapped t-Statistik ist. Ist es in Ordnung, zunächst einen T-Test mit stark verzerrten Daten durchzuführen? Dies ist einer der Gründe, warum ich Boostrap machen möchte.
CatsLoveJazz
2
Für den Bootstrap-Test benötigen Sie nur eine Teststatistik, damit dies kein Problem darstellt. Im Wesentlichen vergleicht ein t-Test die Mittelwerte und Mediane sind in verzerrten Daten häufig aussagekräftiger als die Mittelwerte. Ein Test zum Vergleichen von Medianwerten anstelle von Mittelwerten kann daher sinnvoller sein. Dies hängt jedoch von Ihrer Nullhypothese ab, die Sie und Ihre Entscheidung allein treffen.
Maarten Buis
Ok, danke, das ist der Mittelwert, den wir testen möchten, da alle unsere anderen Ausgaben in dieser Form vorliegen.
CatsLoveJazz