Angenommen, ich habe 20 Mäuse. Ich paare die Mäuse auf irgendeine Weise, so dass ich 10 Paare bekomme. Für den Zweck dieser Frage könnte es sich um eine zufällige Paarung handeln, ODER es könnte sich um eine sinnvolle Paarung handeln, beispielsweise um den Versuch, Mäuse aus demselben Wurf mit gleichem Geschlecht und ähnlichem Gewicht zu paaren, ODER es könnte sich um eine absichtlich dumme Paarung handeln versuchen, Mäuse mit Gewichten zu paaren, die so ungleich sind wie sie nur sein könnten. Ich benutze dann Zufallszahlen, um eine Maus in jedem Paar der Kontrollgruppe und die andere Maus der zu behandelnden Gruppe zuzuweisen. Ich mache jetzt das Experiment, indem ich nur die zu behandelnden Mäuse behandle, aber ansonsten den soeben getroffenen Vorkehrungen keinerlei Beachtung schenke.
Wenn man die Ergebnisse analysiert, kann man entweder ungepaarte T-Tests oder gepaarte T-Tests verwenden. Inwiefern unterscheiden sich die Antworten, wenn überhaupt? (Ich interessiere mich grundsätzlich für systematische Unterschiede bei statistischen Parametern, die geschätzt werden müssen.)
Der Grund, warum ich das frage, ist, dass ein Artikel, mit dem ich kürzlich zu tun hatte, von einem Biologen dafür kritisiert wurde, dass er einen gepaarten T-Test anstelle eines ungepaarten T-Tests verwendet. Natürlich war die Situation im eigentlichen Experiment nicht so extrem wie die Situation, die ich skizziert habe, und meiner Meinung nach gab es gute Gründe für das Pairing. Aber der Biologe stimmte nicht zu.
Es scheint mir nicht möglich zu sein, unter den von mir skizzierten Umständen die statistische Signifikanz zu verbessern (den p-Wert zu verringern), indem ein gepaarter t-Test anstelle eines ungepaarten Tests verwendet wird, selbst wenn eine Paarung nicht angebracht ist. Es könnte jedoch die statistische Signifikanz verschlechtern, wenn Mäuse schlecht gepaart wären. Ist das richtig?
quelle
Es ist wahrscheinlich besser, das zugrunde liegende Datenmodell zu verstehen, als es zu koppeln. Wenn die Paarung durchgeführt wird, um mit unkontrollierter Heterogenität umzugehen, ist es normalerweise (außer in Zwillingsstudien) so, dass die Paarung diese Variabilitätsquelle nur teilweise kontrolliert und eine multiple Regression besser geeignet ist. Dies liegt daran, dass das Anpassen kontinuierlicher Variablen häufig zu einer Restvariabilität führt, da es nicht möglich ist, solche Variablen genau anzupassen.
quelle
Die beiden Tests (gepaart und ungepaart) stellen unterschiedliche Fragen, sodass sie unterschiedliche Antworten erhalten können. Richtiges Pairing ist fast immer leistungsfähiger als ungepaart - genau darum geht es beim Pairing. Da Sie also sagen, dass die Kopplung korrekt ist, ist der p-Wert für Ihren gepaarten Test wahrscheinlich niedriger als für dieselben Daten, die nicht gepaart sind. Sie könnten natürlich beides tun und sich selbst davon überzeugen.
Daher ist die Antwort auf Ihr Dilemma inhaltlich und nicht statistisch. Ist Ihre Paarung richtig?
Könnten Sie durch zufälliges Pairing ein aussagekräftigeres Ergebnis erzielen als durch einen ungepaarten Test? Wir werden sehen:
Ja können Sie, obwohl hier der Unterschied sehr klein ist, das gepaarte hatte ein niedrigeres p. Ich habe diesen Code mehrmals ausgeführt. Es überrascht nicht, dass manchmal ein p niedriger ist, manchmal das andere, aber der Unterschied war in allen Fällen gering. Ich bin mir jedoch sicher, dass in einigen Situationen der Unterschied in den p-Werten groß sein kann.
quelle
Ich verstehe jetzt viel besser, was mich über gepaarte versus ungepaarte t-Tests und die damit verbundenen p-Werte beunruhigte. Das herauszufinden war eine interessante Reise und es gab viele Überraschungen auf dem Weg. Eine Überraschung ergab sich aus einer Untersuchung von Michaels Beitrag. Dies ist in Bezug auf praktische Ratschläge einwandfrei. Außerdem sagt er, was meiner Meinung nach praktisch alle Statistiker glauben, und er hat mehrere positive Stimmen, um dies zu untermauern. Theoretisch ist es jedoch nicht wörtlich richtig. Ich entdeckte dies, indem ich die Formeln für die p-Werte erarbeitete und dann sorgfältig überlegte, wie ich die Formeln verwenden sollte, um zu Gegenbeispielen zu gelangen. Ich bin gelernter Mathematiker, und das Gegenbeispiel ist das Gegenbeispiel eines Mathematikers. Es ist nicht etwas, was Sie in der praktischen Statistik stoßen würde, Die Art von Dingen, die ich herausfinden wollte, als ich meine ursprüngliche Frage stellte.
Hier ist der R-Code, der das Gegenbeispiel gibt:
Beachten Sie die folgenden Merkmale: X und Y sind zwei 10-Tupel, deren Differenz sehr groß und nahezu konstant ist. Für viele signifikante Zahlen beträgt die Korrelation 1.000 .... Der p-Wert für den ungepaarten Test ist etwa 10 ^ 40-mal kleiner als der p-Wert für den gepaarten Test. Das widerspricht also Michaels Bericht, vorausgesetzt, man liest seinen Bericht buchstäblich im mathematischen Stil. Hier endet der Teil meiner Antwort, der sich auf Michaels Antwort bezieht.
Hier sind die Gedanken, die durch Peters Antwort angeregt werden. Während der Diskussion meiner ursprünglichen Frage vermutete ich in einem Kommentar, dass zwei bestimmte Verteilungen von p-Werten, die unterschiedlich klingen, tatsächlich gleich sind. Das kann ich jetzt beweisen. Was wichtiger ist, ist, dass der Beweis die fundamentale Natur eines p-Wertes aufdeckt, so fundamental, dass kein Text (auf den ich gestoßen bin) stört, um zu erklären. Vielleicht kennen alle professionellen Statistiker das Geheimnis, aber für mich schien die Definition des p-Werts immer seltsam und künstlich. Lassen Sie mich die Frage spezifizieren, bevor Sie das Geheimnis des Statistikers preisgeben.
quelle
Ich würde eine andere Perspektive anbieten. Oft wird das Pairing durchgeführt, um die Verzerrung zu verringern. Angenommen, Sie interessieren sich dafür, ob Exposition E ein Risikofaktor für ein kontinuierliches Ergebnis ist. Y. Für jedes E + -Subjekt erhalten Sie ein alters- und geschlechtsangepasstes Subjekt, das E- ist. Jetzt können wir entweder einen gepaarten T-Test oder einen ungepaarten T-Test durchführen. Ich denke, wir sollten das Matching explizit berücksichtigen und einen gepaarten T-Test durchführen. Es ist grundsätzlicher, dass es das Design berücksichtigt. Ob das Matching in der Analyse berücksichtigt wird, ist eine Frage des Bias-Varianz-Kompromisses. Die Berücksichtigung von Übereinstimmungen in der Analyse bietet mehr Schutz vor Verzerrungen, kann jedoch die Varianz erhöhen. Die Durchführung eines ungepaarten T-Tests ist zwar effizienter, bietet jedoch keinen Schutz vor Verzerrungen.
quelle