Wie können Sie Testannahmen in realen Fällen überprüfen, ohne sie zu testen?

9

Wir wissen, dass die Annahmen eines Tests formal nicht getestet werden können, denn wenn wir anhand der Testergebnisse auswählen, welcher Test verwendet werden soll, weist der resultierende zusammengesetzte Test unbekannte Eigenschaften auf (Fehlerraten Typ I und II). Ich denke, dies ist einer der Gründe, warum "Six Sigma" -Ansätze für Statistiken (verwenden Sie einen Entscheidungsbaum basierend auf Testergebnissen, um zu entscheiden, welcher Test verwendet werden soll) unter professionellen Statistikern einen schlechten Ruf bekommen.

Bei Daten aus der realen Welt erhalten wir jedoch häufig Stichproben, für die klassische Annahmen möglicherweise nicht zutreffen, und müssen daher auf die eine oder andere Weise prüfen. Was machst du eigentlich in deinem Job / deiner Forschung? Führen Sie eine informelle Überprüfung durch, sehen Sie sich beispielsweise die Verteilung der Daten an und verwenden Sie ein t-Test, wenn die empirische Verteilung nicht zu verzerrt erscheint? Das sehe ich meistens. Solange wir jedoch eine Entscheidung treffen, die auf dem Ergebnis dieses "informellen Tests" basiert, wirken wir uns immer noch auf die Testeigenschaften aus. Wenn wir die Prüfung nicht verwenden, um eine Entscheidung zu treffen, ist die Prüfung nutzlos und wir sollte keine kostbare Zeit damit verschwenden. Natürlich könnten Sie mir antworten, dass formale Testeigenschaften überbewertet sind und dass wir in der Praxis nicht religiös sein müssen. Deshalb interessiert mich, was Sie in der Praxis tun, nicht nur mit theoretischem Hintergrund.

Ein anderer Ansatz wäre es, immer den Test mit weniger Annahmen zu verwenden. Normalerweise habe ich gesehen, dass dieser Ansatz nichtparametrische Tests gegenüber parametrischen Tests bevorzugt , da erstere nicht davon ausgehen, dass die Teststatistik aus einer Familie von Verteilungen stammt, die durch einen Parametervektor indiziert sind, und daher robuster sein sollten (weniger Annahmen) ). Ist das im Allgemeinen wahr? Riskieren wir bei diesem Ansatz nicht in einigen Fällen die Verwendung von Tests mit unzureichender Leistung? Ich bin mir nicht sicher. Gibt es eine nützliche (möglicherweise einfache) Referenz für angewandte Statistiken, in der eine Liste der zu verwendenden Tests / Modelle als bessere Alternativen zu klassischen Tests (T-Test, Chi-Quadrat usw.) aufgeführt ist und wann sie verwendet werden sollen?

DeltaIV
quelle
Six Sigma-Methoden sind für Prozesse konzipiert, die immer wieder ausgeführt wurden und werden sollen, z. B. wie in der Fertigung. Sie haben wenig oder gar nichts zu den Themen zu sagen, die sich auf benutzerdefinierte und ad hoc, ex novo oder völlig neuartige Daten (Informationen) beziehen. Dies bedeutet, dass die Entdeckung echten Wissens von Natur aus riskant ist und eine Replikation zur Weihe erfordert.
Mike Hunter

Antworten:

2

Was ich am häufigsten gesehen habe (und eher selbst tun würde), ist, mehrere Sätze historischer Daten aus demselben Bereich für dieselben Variablen zu betrachten und diese als Grundlage zu verwenden, um zu entscheiden, was angemessen ist. Dabei sollte man natürlich berücksichtigen, dass leichte Abweichungen von z. B. der Normalität der Regressionsreste bei ausreichend großen Stichproben in der geplanten Anwendung im Allgemeinen kein allzu großes Problem darstellen. Durch die Betrachtung unabhängiger Daten wird vermieden, dass Testeigenschaften wie die Fehlerkontrolle vom Typ I durcheinander gebracht werden (die in einigen Bereichen wie der Bestätigung einer klinischen Studie für regulatorische Zwecke sehr wichtig sind). Der Grund für die (gegebenenfalls) Verwendung parametrischer Ansätze ist, wie Sie sagen, Effizienz,

Björn
quelle
Interessant - wenn ich mehr Datensätze hätte, würde ich versuchen, zu aggregieren, um an Macht zu gewinnen, aber historische Daten nicht zu aggregieren und für Annahmeprüfungen zu reservieren, ist eine interessante alternative Idee. Auch das Überprüfen der Literatur kann hilfreich sein. Ich stimme definitiv der Tatsache zu, dass Effektgrößenschätzungen aus parametrischen Ansätzen leichter zu interpretieren sind.
DeltaIV
1
Ich glaube, ich komme aus der Pharmaindustrie und habe über Versuche mit verschiedenen Medikamenten nachgedacht. Wenn eine strikte Typ-I-Fehlerratenkontrolle nicht erforderlich ist und eher für die interne Entscheidungsfindung dient, könnte man die vorherigen Studien mit anderen Arzneimitteln möglicherweise auch weiterhin verwenden, um einen Prior für die Kontrollgruppe zu erhalten, aber der Schwerpunkt liegt normalerweise auf der Analyse von a neuer Versuch eines neuen Arzneimittels. Das mag meine besondere Perspektive erklären.
Björn
0

Persönlich möchte ich einen parametrischen Test und sein nicht parametrisches Äquivalent durchführen und die Annahmen von jedem auf einmal testen. Wenn die Annahmen des parametrischen Tests nicht massiv verletzt werden oder wenn ich mit dem nicht parametrischen Text ähnliche Ergebnisse erhalte, verwende ich den parametrischen Test. Selbst wenn die parametrischen Annahmen verletzt werden und Sie signifikante Ergebnisse erhalten, können Sie ziemlich sicher sein, da der Test durch die Verletzung geschwächt wurde. Um ehrlich zu sein, ist es schwierig, Ergebnisse wie "Gruppe A hatte einen mittleren Rang, der 12 höher war als der mittlere Rang von Gruppe B", sinnvoll zu interpretieren.

JRF1111
quelle
Wenn Sie die Annahmen des parametrischen Tests testen und den nichtparametrischen verwenden, wenn die Annahmen des ersteren verletzt werden, andernfalls auf den parametrischen Test zurückgreifen, verwenden Sie effektiv einen zusammengesetzten Test mit unbekannten Eigenschaften. Denken Sie, dass dies kein wichtiges Thema ist? Ich stimme der Schwierigkeit zu, die Ergebnisse eines nichtparametrischen Tests zu interpretieren - zum Beispiel werden im Mann Whitney Wilcoxon Maßstab und Ort verwechselt, was die Interpretation sicherlich nicht vereinfacht.
DeltaIV
1
Ehrlich gesagt hatte ich das nicht so gesehen. Es wirft einen guten Punkt auf. Letztendlich denke ich jedoch, dass zumindest für die Arbeit, die ich mache, klar verständliche Ergebnisse, die die Testannahmen nicht massiv verletzen, das größte Problem sind. Menschen haben es sowieso schwer genug, Statistiken zu verstehen.
JRF1111