Angenommen, ich habe zwei Bedingungen und meine Stichprobengröße für die beiden Bedingungen ist extrem niedrig. Nehmen wir an, ich habe nur 14 Beobachtungen in der ersten Bedingung und 11 in der anderen. Ich möchte den t-Test verwenden, um zu testen, ob sich die mittleren Unterschiede signifikant voneinander unterscheiden.
Erstens bin ich ein wenig verwirrt über die Normalitätsannahme des T-Tests, weshalb ich möglicherweise nicht vollständig Bootstrapping bekomme. Ist die Annahme für den t-Test, dass (A) die Daten aus einer normalen Population entnommen wurden oder (B) dass Ihre Stichprobenverteilungen Gaußsche Eigenschaften haben? Wenn es (B) ist, dann ist es nicht wirklich eine Annahme, oder? Sie können einfach ein Histogramm Ihrer Daten zeichnen und sehen, ob es normal ist oder nicht. Wenn meine Stichprobengröße jedoch niedrig ist, habe ich nicht genügend Datenpunkte, um festzustellen, ob meine Stichprobenverteilung normal ist.
Hier kommt meiner Meinung nach das Bootstrapping ins Spiel. Ich kann das Bootstrap durchführen, um zu sehen, ob mein Beispiel normal ist, oder? Zuerst dachte ich, dass Bootstrapping immer zu einer Normalverteilung führen würde, aber das ist nicht der Fall ( Kann Bootstrap-Resampling verwendet werden, um ein Konfidenzintervall für die Varianz eines Datensatzes zu berechnen ? Statexchange statexchange ). Ein Grund, warum Sie booten würden, ist, sich der Normalität Ihrer Beispieldaten sicherer zu sein, richtig?
An diesem Punkt werde ich jedoch gründlich verwirrt. Wenn ich einen t-Test in R mit der Funktion t.test durchführe und die Bootstrap-Abtastvektoren als die beiden unabhängigen Abtastwerte einsetze, wird mein t-Wert einfach wahnsinnig signifikant. Mache ich den Bootstrap-T-Test nicht richtig? Ich darf nicht, weil alles, was Bootstrapping macht, nur meinen t-Wert vergrößert, würde das nicht in jedem Fall passieren? Führen die Leute keinen T-Test für die Bootstrap-Samples durch?
Was ist der Vorteil der Berechnung von Konfidenzintervallen auf einem Bootstrap gegenüber der Berechnung von Konfidenzintervallen in unserer Originalstichprobe? Was sagen mir diese Konfidenzintervalle, dass Konfidenzintervalle für die ursprünglichen Probendaten dies nicht tun?
Ich glaube, ich bin verwirrt darüber, (A) warum ein Bootstrap verwendet werden soll, wenn dadurch nur mein t-Wert signifikanter wird, (B) nicht sicher ist, wie Bootstrapping bei der Durchführung eines unabhängigen Beispiel-T-Tests richtig eingesetzt werden soll, und (C) unsicher wie die Rechtfertigung, Ausführung und Ergebnisse von Bootstrapping in unabhängigen T-Test-Situationen gemeldet werden.
Antworten:
Es gibt mehrere Missverständnisse in Ihrem Beitrag (von denen einige häufig sind und Ihnen möglicherweise das Falsche gesagt wurde, weil die Person, die Ihnen erzählt, nur die Fehlinformationen weitergegeben hat).
Erstens ist Bootstrap nicht der Retter der kleinen Stichprobengröße. Bootstrap ist für kleine Stichproben tatsächlich ziemlich schlecht geeignet, selbst wenn die Population normal ist. Diese Frage, Antwort und Diskussion sollten etwas Licht ins Dunkel bringen. Auch der Artikel hier gibt mehr Details und Hintergrundinformationen.
Sowohl der t-Test als auch der Bootstrap basieren auf Stichprobenverteilungen, wie die Verteilung der Teststatistik ist.
Der genaue t-Test basiert auf der Theorie und der Bedingung, dass die Population / der Prozess, der die Daten generiert, normal ist. Der t-Test ist ziemlich robust gegenüber der Normalitätsannahme (was die Größe des Tests betrifft, können Leistung und Präzision eine andere Sache sein), so dass in einigen Fällen die Kombination von "Normal genug" und "Große Stichprobengröße" bedeutet dass die Stichprobenverteilung "nahe genug" an der Normalität liegt, dass der t-Test eine vernünftige Wahl ist.
Anstatt eine normale Grundgesamtheit anzunehmen, verwendet der Bootstrap die Stichproben-CDF als Schätzung der Grundgesamtheit und berechnet / schätzt (normalerweise durch Simulation) die tatsächliche Stichprobenverteilung (die normal sein kann, aber nicht sein muss). Wenn die Stichprobe die Grundgesamtheit angemessen darstellt, funktioniert der Bootstrap gut. Bei kleinen Stichprobengrößen ist es für die Stichprobe jedoch sehr einfach, die Grundgesamtheit schlecht darzustellen, und die Bootstrap-Methoden sind in diesen Fällen mies (siehe die oben genannte Simulation und das oben genannte Dokument).
Der Vorteil des T-Tests besteht darin, dass er gut funktioniert, wenn alle Annahmen zutreffen (oder nahe beieinander liegen) (ich denke, es ist tatsächlich der einheitlich leistungsstärkste Test). Der Nachteil ist, dass es nicht gut funktioniert, wenn die Annahmen nicht wahr sind (und nicht annähernd wahr sind), und es gibt einige Fälle, in denen die Annahmen größere Unterschiede machen als in anderen. Und die T-Test-Theorie gilt nicht für einige interessierende Parameter / Statistiken, z. B. getrimmte Mittelwerte, Standardabweichungen, Quantile usw.
Der Vorteil des Bootstraps besteht darin, dass er die Stichprobenverteilung ohne viele der für parametrische Methoden erforderlichen Annahmen schätzen kann. Es funktioniert für andere Statistiken als den Mittelwert und in Fällen, in denen andere Annahmen nicht zutreffen (z. B. 2 Stichproben, ungleiche Varianzen). Der Nachteil des Bootstraps besteht darin, dass er stark von der Stichprobe abhängt, die die Grundgesamtheit darstellt, da er nicht die Vorteile anderer Annahmen aufweist. Der Bootstrap gibt Ihnen keine Normalität, sondern die Stichprobenverteilung (die manchmal normal aussieht, aber immer noch funktioniert, wenn dies nicht der Fall ist), ohne dass die Annahmen über die Grundgesamtheit erforderlich sind.
Für T-Tests, bei denen anzunehmen ist, dass die Population normal (oder zumindest normal genug) ist, ist der T-Test am besten (von 2).
Wenn Sie keine Normalität und kleine Beispiele haben, sollte weder dem T-Test noch dem Bootstrap vertraut werden. Für den Fall mit zwei Stichproben funktioniert ein Permutationstest gut, wenn Sie bereit sind, unter der Nullhypothese gleiche Verteilungen (einschließlich gleicher Varianzen) anzunehmen. Dies ist eine sehr vernünftige Annahme, wenn Sie ein randomisiertes Experiment durchführen, aber möglicherweise nicht, wenn Sie zwei verschiedene Populationen vergleichen (aber wenn Sie glauben, dass zwei Populationen unterschiedliche Ausbreitungen / Formen haben könnten, ist ein Test der Mittel möglicherweise nicht die interessanteste Frage oder die interessanteste bester Ort, um zu beginnen).
Bei großen Stichprobengrößen wird die Theorie der großen Stichproben sowohl T-Tests als auch Bootstrapping zugute kommen, und Sie werden beim Vergleich der Mittelwerte kaum oder gar keinen Unterschied feststellen.
Bei moderaten Stichprobengrößen kann der Bootstrap eine gute Leistung erbringen und wird möglicherweise bevorzugt, wenn Sie nicht bereit sind, die für die T-Test-Verfahren erforderlichen Annahmen zu treffen.
Das Wichtigste ist, die Annahmen und Bedingungen zu verstehen, die für die verschiedenen von Ihnen in Betracht gezogenen Verfahren erforderlich sind, und zu berücksichtigen, wie sich diese Bedingungen und Abweichungen von ihnen auf Ihre Analyse auswirken und wie Sie glauben, dass die Grundgesamtheit / der Prozess, der / der Ihre Daten erzeugt hat, zu diesen Bedingungen passt Die Simulation kann Ihnen helfen zu verstehen, wie sich die Abweichungen auf die verschiedenen Methoden auswirken. Denken Sie daran, dass alle statistischen Verfahren Bedingungen und Annahmen haben (mit der möglichen Ausnahme von SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , aber wenn Sie diesen Test verwenden, werden die Leute Annahmen über Sie treffen).
quelle