Ich verstehe die Intuition hinter dem MCP, aber ich habe Probleme, genau die Ursache zu bestimmen, was vermieden oder zumindest erklärt werden sollte.
In seiner klarsten Definition stimme ich zu, dass ich, wenn ich Daten nehme und einen Brute-Force-Ansatz anwende, um alle möglichen Nullhypothesen zu versuchen, irgendwann eine finde, die mit einem beliebigen alfa (z. B. 5%) abgelehnt werden kann, und deklariere eine Entdeckung.
Aber in vielen Definitionen von MCP lese ich so etwas wie "Je mehr Sie testen, desto mehr werden Sie wahrscheinlich finden", und obwohl ich damit einverstanden bin, sehe ich es nicht unbedingt als Problem (oder zumindest als Wurzel des Problems). Wenn beispielsweise viele Forscher dasselbe Phänomen mit denselben verfügbaren Daten analysieren und dabei jeweils ihre eigene Hypothese testen, ist es wahrscheinlicher, dass eine Entdeckung erzielt wird (als wenn es nur ein Forscher wäre). Bedeutet dies, dass sie sich bewerben sollten? irgendeine Art von Korrektur an ihrem Ziel-Alfa (z. B. eine Bonferroni-Korrektur )? Ich gehe davon aus, dass die Antwort Nein lautet, aber dann wird nicht klar, warum ein einzelner Forscher, der viele Hypothesen testet, dies tun sollte (wieder einverstanden, dass das Testsystem missbraucht werden kann und es eine Korrektur dafür geben sollte).
Wann wird diese erhöhte Chance, eine Entdeckung zu finden (eine Nullhypothese abzulehnen), zu einem Problem? Wenn ich über die Ursachen nachdenke, fallen mir einige Faktoren ein, aber ich bin mir nicht sicher, welcher von ihnen (oder andere, die hier nicht aufgeführt sind) eher mit der Ursache dieses Problems zusammenhängt:
Post-hoc-Analyse : Ich verstehe, dass die Hypothesen (vorzugsweise) a priori formuliert werden sollten, wenn nicht, schaue ich mir nur die Daten an, um zu erraten, welche Hypothese ich unter die gewünschte Alfa passen könnte.
Wiederverwenden von Daten: Ist das Problem behoben, wenn ich für jede von mir getestete Hypothese unterschiedliche Datensätze verwende? Die Chance, eine Entdeckung zu finden, erhöht sich immer noch, je mehr Hypothesen ich teste (selbst bei verschiedenen Datensätzen).
Unabhängige Forscher: Wiederverwendung des vorherigen Beispiels: Bezieht sich das MCP auf dasselbe Forschungsteam / dieselbe Forschungsarbeit? Oder gilt dies für mehrere unabhängige Forscher, die an demselben Problem arbeiten (oder sogar an denselben oder ähnlichen Daten)?
Unabhängige Hypothesen: Tritt das Problem im Zusammenhang mit der vorherigen Ausgabe auf (oder manifestiert es sich stärker), wenn die Hypothesen unabhängig sind? (weil ich mehr vom Suchraum abdecke) oder das Hauptproblem darin besteht, ähnliche Hypothesen mit kleinen Abweichungen auszuprobieren (z. B. Feinabstimmung eines Parameters)?
Ich könnte die obigen Punkte in meiner Interpretation wie folgt zusammenfassen: (1) und (2) sind Formen der Reduzierung des Suchraums (Ausleihe von Terminologie aus der Optimierungstheorie), wo ich es einfacher mache, eine Entdeckung zu finden; und (3) und (4) verwenden mehr orthogonale Suchmethoden, die jedes Mal, wenn sie angewendet werden (dh jedes Mal, wenn eine Hypothese getestet wird), mehr von diesem Suchraum abdecken. Aber dies sind nur einige mögliche Ursachen, die ich mir einfallen lassen könnte, um eine Antwort zu finden. Ich bin mir sicher, dass mir noch viel mehr fehlt.
Diese Frage ist eine Art Folgemaßnahme zu einer früheren Frage, in der gefragt wird, warum der Mehrfachvergleich ein Problem darstellt , und das ein Problem aufwirft , das der Unterscheidung zwischen FWER und FDR ähnelt (wenn ich die Frage richtig verstehe). In dieser Frage betrachte ich das nicht als Problem (obwohl ich eher dazu neige, FDR zu verwenden), beide Raten implizieren, dass es ein Problem gibt, wenn mehr als eine Hypothese analysiert wird (aber ich sehe keinen Unterschied zu dem Fall, wenn Ich analysiere verschiedene nicht verwandte Probleme und finde für jedes eine Entdeckung mit einer Signifikanz von 5%. Wenn ich also 100 Probleme "gelöst" habe, die Nullhypothesen ablehnen, wären 5 davon - erwarteter Wert - wahrscheinlich falsch. Die beste Antwort auf diese Frage implizierte, dass es keine eindeutige Antwort darauf gab, und vielleicht gibt es auch keine für diese Frage, aber es wäre (zumindest für mich) immer noch sehr hilfreich, so viel wie möglich zu klären, wo die Ursache des MCP-Fehlers liegt kommen von.
( Eine andere Antwort auf dieselbe Frage schlug ein Papier vor, in dem die Vorteile der Bayes'schen Mehrebenenmodellperspektive gegenüber der klassischen Perspektive erläutert werden. Dies ist ein weiterer interessanter Ansatz, der untersucht werden sollte, aber der Umfang dieser Frage ist der klassische Rahmen.)
Es gibt bereits mehrere Fragen zu diesem Problem, von denen viele lesenswert sind (z. B. 1 , 2 , 3 , 4 ), die sich (aus verschiedenen Perspektiven) mit den oben aufgeworfenen Fragen befassen, aber ich fühle immer noch eine einheitlichere Antwort (wenn dies überhaupt möglich ist). fehlt, daher diese Frage, von der ich hoffe, dass sie das (bereits problematische) SNR nicht verringert .
quelle
Antworten:
Ihre Intuition ist ungefähr richtig, aber es kann hilfreich sein zu überlegen, wie ein mehrfacher Vergleich die Annahmen des Hypothesentests selbst untergräbt. Wenn Sie einen klassischen Hypothesentest durchführen, generieren Sie einen p-Wert, der ein Maß für die Evidenz gegen die Nullhypothese ist. Der p-Wert ist so konstruiert, dass niedrigere Werte einen größeren Beweis gegen die Null darstellen, und er ist unter der Nullhypothese gleichmäßig verteilt . Dies ermöglicht es Ihnen, die Nullhypothese für niedrige p-Werte (relativ zum Signifikanzniveau) als unplausibel anzusehen.
Was ist das Problem hier? Nun, das Problem ist, dass, obwohl die p-Werte jedes der Tests unter ihren jeweiligen Nullhypothesen einheitlich sind, die geordneten p-Werte nicht einheitlich sind. Indem Sie die niedrigsten p -Werte auswählen, die unter dem Signifikanzniveau liegen, betrachten Sie keine Zufallsvariablen mehr, die unter ihren jeweiligen Nullhypothesen einheitlich sind. Tatsächlich haben die niedrigsten p-Werte für großes wahrscheinlich eine Verteilung, die nahe Null stark konzentriert ist, und daher liegen diese höchstwahrscheinlich unter Ihrem Signifikanzniveau, obwohl (unter der Annahme) alle Nullhypothesen für Sie vorliegen Tests sind wahr.N.k N.
Dieses Phänomen tritt unabhängig davon auf, ob die p-Werte unabhängig sind oder nicht, und tritt daher unabhängig davon auf, ob Sie dieselben oder unterschiedliche Daten zum Testen dieser Hypothesen verwenden. Das Problem mehrerer Vergleiche besteht darin, dass die niedrigeren p-Werte der Tests marginale Nullverteilungen aufweisen, die nicht einheitlich sind . Anpassungen wie die Bonferroni-Korrektur versuchen, dies zu beheben, indem entweder die p-Werte oder die Signifikanzniveaus angepasst werden, um einen Vergleich zu erstellen, der dieses Phänomen berücksichtigt.N.
quelle
Sie scheinen anzunehmen, dass ein Forscher erkennen kann, wann eine Entdeckung gemacht wird. Das ist nicht der Fall. Selbst wenn Sie "eine Entdeckung finden", können Sie nie sicher sein, dass Sie dies getan haben (es sei denn, Sie sind eine Art allwissendes Wesen), denn so beschämend es auch klingt, was normalerweise einen Fehlalarm von einer Entdeckung in der Wissenschaft unterscheidet ein gewisses Maß an menschlichem "Vertrauen" in die Analyse.
quelle