Wir wissen, dass die Annahmen eines Tests formal nicht getestet werden können, denn wenn wir anhand der Testergebnisse auswählen, welcher Test verwendet werden soll, weist der resultierende zusammengesetzte Test unbekannte Eigenschaften auf (Fehlerraten Typ I und II). Ich denke, dies ist einer der Gründe, warum "Six Sigma" -Ansätze für Statistiken (verwenden Sie einen Entscheidungsbaum basierend auf Testergebnissen, um zu entscheiden, welcher Test verwendet werden soll) unter professionellen Statistikern einen schlechten Ruf bekommen.
Bei Daten aus der realen Welt erhalten wir jedoch häufig Stichproben, für die klassische Annahmen möglicherweise nicht zutreffen, und müssen daher auf die eine oder andere Weise prüfen. Was machst du eigentlich in deinem Job / deiner Forschung? Führen Sie eine informelle Überprüfung durch, sehen Sie sich beispielsweise die Verteilung der Daten an und verwenden Sie ein t-Test, wenn die empirische Verteilung nicht zu verzerrt erscheint? Das sehe ich meistens. Solange wir jedoch eine Entscheidung treffen, die auf dem Ergebnis dieses "informellen Tests" basiert, wirken wir uns immer noch auf die Testeigenschaften aus. Wenn wir die Prüfung nicht verwenden, um eine Entscheidung zu treffen, ist die Prüfung nutzlos und wir sollte keine kostbare Zeit damit verschwenden. Natürlich könnten Sie mir antworten, dass formale Testeigenschaften überbewertet sind und dass wir in der Praxis nicht religiös sein müssen. Deshalb interessiert mich, was Sie in der Praxis tun, nicht nur mit theoretischem Hintergrund.
Ein anderer Ansatz wäre es, immer den Test mit weniger Annahmen zu verwenden. Normalerweise habe ich gesehen, dass dieser Ansatz nichtparametrische Tests gegenüber parametrischen Tests bevorzugt , da erstere nicht davon ausgehen, dass die Teststatistik aus einer Familie von Verteilungen stammt, die durch einen Parametervektor indiziert sind, und daher robuster sein sollten (weniger Annahmen) ). Ist das im Allgemeinen wahr? Riskieren wir bei diesem Ansatz nicht in einigen Fällen die Verwendung von Tests mit unzureichender Leistung? Ich bin mir nicht sicher. Gibt es eine nützliche (möglicherweise einfache) Referenz für angewandte Statistiken, in der eine Liste der zu verwendenden Tests / Modelle als bessere Alternativen zu klassischen Tests (T-Test, Chi-Quadrat usw.) aufgeführt ist und wann sie verwendet werden sollen?
Antworten:
Was ich am häufigsten gesehen habe (und eher selbst tun würde), ist, mehrere Sätze historischer Daten aus demselben Bereich für dieselben Variablen zu betrachten und diese als Grundlage zu verwenden, um zu entscheiden, was angemessen ist. Dabei sollte man natürlich berücksichtigen, dass leichte Abweichungen von z. B. der Normalität der Regressionsreste bei ausreichend großen Stichproben in der geplanten Anwendung im Allgemeinen kein allzu großes Problem darstellen. Durch die Betrachtung unabhängiger Daten wird vermieden, dass Testeigenschaften wie die Fehlerkontrolle vom Typ I durcheinander gebracht werden (die in einigen Bereichen wie der Bestätigung einer klinischen Studie für regulatorische Zwecke sehr wichtig sind). Der Grund für die (gegebenenfalls) Verwendung parametrischer Ansätze ist, wie Sie sagen, Effizienz,
quelle
Persönlich möchte ich einen parametrischen Test und sein nicht parametrisches Äquivalent durchführen und die Annahmen von jedem auf einmal testen. Wenn die Annahmen des parametrischen Tests nicht massiv verletzt werden oder wenn ich mit dem nicht parametrischen Text ähnliche Ergebnisse erhalte, verwende ich den parametrischen Test. Selbst wenn die parametrischen Annahmen verletzt werden und Sie signifikante Ergebnisse erhalten, können Sie ziemlich sicher sein, da der Test durch die Verletzung geschwächt wurde. Um ehrlich zu sein, ist es schwierig, Ergebnisse wie "Gruppe A hatte einen mittleren Rang, der 12 höher war als der mittlere Rang von Gruppe B", sinnvoll zu interpretieren.
quelle