Auswahl eines statistischen Tests basierend auf dem Ergebnis eines anderen (zB Normalität)

13

Ich habe gehört, dass es keine gute Idee ist, einen statistischen Test anhand des Ergebnisses eines anderen zu wählen. Das kommt mir allerdings komisch vor. Beispielsweise wird häufig ein nicht parametrischer Test verwendet, wenn ein anderer Test darauf hinweist, dass die Residuen nicht normal verteilt sind. Dieser Ansatz scheint ziemlich weit verbreitet zu sein, scheint jedoch nicht mit dem ersten Satz in diesem Absatz übereinzustimmen. Ich hatte nur gehofft, eine Klärung zu diesem Thema zu bekommen.

Jimj
quelle
3
Nur weil Residuen nicht Gaußsch sind, müssen Sie keine nicht-parametrischen Tests durchführen. In der Regel können Sie den zu verwendenden Modelltyp (Ja-Modell, kein Test) anhand der Art der Daten (Anzahl, 0 1 -Daten, stetige Beziehung, Mittelwert-Varianz-Beziehung, lineare oder nicht lineare Beziehung usw.) unterscheiden und Modelle entsprechend anpassen Um die Merkmale der Daten zu erfüllen, muss zuvor entschieden werden, welche Hypothese getestet werden soll. Wenn Sie der Meinung sind, dass die Anpassung den Annahmen des angepassten Modells entspricht, können Sie den p-Wert und andere Statistiken auswerten.
Reinstate Monica - G. Simpson,

Antworten:

14

Unter der Annahme, dass die Wahrscheinlichkeit für die Beobachtung von Daten ist, die so extrem oder noch extremer sind, wenn H 0 wahr ist, wie lautet dann die Interpretation von p, bei der p durch einen Prozess ermittelt wird, bei dem bei der Auswahl des Tests eine zufällige Entscheidung getroffen wurde, dass produziert das p ? Die Antwort ist unbekannt (oder zumindest fast unbekannt). Durch die Entscheidung, den Test auf der Grundlage eines anderen probabilistischen Prozesses durchzuführen oder nicht, haben Sie die Interpretation Ihres Ergebnisses noch komplizierter gemacht. ppH0ppppDie Werte sind maximal interpretierbar, wenn der Probenumfang und der Analyseplan im Voraus vollständig ausgewählt wurden. In anderen Situationen werden die Interpretationen schwierig, deshalb ist es keine gute Idee. Davon abgesehen ist dies eine allgemein akzeptierte Praxis. Warum sollte man sich überhaupt die Mühe machen, einen Test durchzuführen, wenn man feststellt, dass der geplante Test ungültig ist? Die Antwort auf diese Frage ist weit weniger sicher. Dies alles läuft auf die einfache Tatsache hinaus, dass das Testen der Signifikanz der Nullhypothese (der primäre Anwendungsfall von ) einige Probleme aufweist, die schwer zu überwinden sind.p

russellpierce
quelle
Ich konnte auf Google keine Artikel finden, die dieses Phänomen behandeln, möglicherweise weil ich die falschen Suchbegriffe verwendet habe. Wäre jemand in der Lage, mich auf einen Artikel hinzuweisen, in dem das Problem der auf Tests basierenden Tests erörtert wird?
Rob Hall
1
@RobHall: Dies ist eine spezifische Instanz von "Die Bedeutung von hypothetischen Problemen für imaginäre Daten". Vgl. Wagenmakers, 2007, p. 784. Wagenmakers bezieht sich speziell auf die Frage der Transformationen in der zweiten Spalte, in der es heißt: "Um einen p-Wert zu berechnen, müssen Sie wissen, was Sie getan hätten, wenn die Daten anders ausgefallen wären. Dazu gehört auch, was Sie getan hätten, wenn Daten wären war eindeutig nicht normalverteilt ..., p - Werte können nur berechnet werden, wenn der Stichprobenplan vollständig bekannt und im Voraus festgelegt ist ".
Russellpierce
8

Beispielsweise wird häufig ein nicht parametrischer Test verwendet, wenn ein anderer Test darauf hinweist, dass die Residuen nicht normal verteilt sind. Dieser Ansatz scheint ziemlich weit verbreitet zu sein, scheint jedoch nicht mit dem ersten Satz in diesem Absatz übereinzustimmen. Ich hatte nur gehofft, eine Klärung zu diesem Thema zu bekommen.

Ja, viele Leute machen so etwas und ändern ihren zweiten Test in einen, der sich mit Heteroskedastizität befasst, wenn sie die Varianzgleichheit ablehnen, und so weiter.

Nur weil etwas gemeinsam ist, heißt das noch lange nicht, dass es klug ist.

In der Tat wird an einigen Stellen (ich werde die am schlimmsten beleidigenden Disziplinen nicht nennen) eine Menge dieser formalen Hypothesentests unterrichtet, die von anderen formalen Hypothesentests abhängen.

Das Problem dabei ist, dass Ihre Prozeduren ihre nominalen Eigenschaften nicht haben, manchmal sogar nicht in der Nähe. (Andererseits könnte es noch schlimmer sein, solche Dinge anzunehmen, ohne die potenzielle extreme Verletzung in Betracht zu ziehen.)

In mehreren Veröffentlichungen wird empfohlen, im heteroskedastischen Fall einfach so zu verhalten, als ob die Varianzen nicht gleich wären, als dies zu testen und nur bei Ablehnung etwas dagegen zu unternehmen.

Im Normalfall ist es weniger klar. Zumindest bei großen Stichproben ist die Normalität in vielen Fällen nicht so entscheidend (aber ironischerweise lehnt Ihr Test der Normalität bei großen Stichproben viel eher ab), solange die Nicht-Normalität nicht zu wild ist. Eine Ausnahme bilden Vorhersageintervalle, bei denen Ihre Verteilungsannahme wirklich genau richtig sein muss.

Zum Teil besteht ein Problem darin, dass Hypothesentests eine andere Frage beantworten als die, die beantwortet werden muss. Sie nicht wirklich wissen müssen , ‚sind die Daten wirklich normal‘ (fast immer, wird es nicht genau normal a priori ). Die Frage ist vielmehr, wie stark sich das Ausmaß der Nichtnormalität auf meine Schlussfolgerung auswirkt.

Das zweite Problem ist in der Regel nahezu unabhängig von der Stichprobengröße oder wird mit zunehmender Stichprobengröße sogar besser. Bei großen Stichprobengrößen werden Hypothesentests jedoch fast immer abgelehnt.

Es gibt viele Situationen, in denen es robuste oder sogar verteilungsfreie Verfahren gibt, die selbst im Normalfall nahezu vollständig effizient sind (und möglicherweise bei einigen recht bescheidenen Abweichungen weitaus effizienter sind) - in vielen Fällen erscheint es unsinnig, das nicht zu akzeptieren gleicher vorsichtiger Ansatz.

Glen_b - Setzen Sie Monica wieder ein
quelle
Nett (+1) Könnten Sie einen Verweis auf die Artikel geben, die Sie über den heteroskedastischen Fall erwähnen?
gui11aume
2
Ich möchte nicht darauf hinweisen, aber ich stelle sie die ganze Zeit online zur Verfügung, so dass es nicht schwer ist, herauszufinden, welche es tendenziell betonen (es sind tendenziell dieselben, die das Testen von Hypothesen historisch überbetonen). Tatsächlich sind die Disziplinen der Menschen Fragen hier zu erzeugen , wo Plakate denken , sie haben formale Tests in der Regel verwenden , würden die gleichen sein. Es sind nicht nur ein oder zwei Disziplinen - ich sehe viele -, aber einige scheinen es besonders oft zu tun. Damit es einigermaßen verbreitet ist, kann ich nur annehmen, dass es in den Bereichen, die darauf bestanden haben, besonders bekannte Texte gegeben hat.
Glen_b
1
@ gui11aume Hier ist eine Referenz ... es ist nicht eine von denen, nach denen ich gesucht habe, aber es macht den Punkt, auf den ich gekommen bin, aus (das vorläufige Testen kann die Sache noch schlimmer machen).
Glen_b
2
Andrew Gelman hatte kürzlich einen ähnlichen Beitrag über die Heterogenität zwischen verwandten Gruppen verfasst (zumindest darüber, warum ein solcher Prozess problematisch ist).
Andy W
1
Eine Frage im Zusammenhang mit diesen Diskussionen vor einiger
Russellpierce
8

Die Hauptprobleme wurden von anderen gut erklärt, sind jedoch mit den zugrunde liegenden oder damit verbundenen verwechselt

  1. Überachtung von P-Werten, höchstens eine Art von Belegen in der Statistik.

  2. Die Zurückhaltung, zu sehen, dass statistische Berichte unweigerlich auf einer Kombination von Entscheidungen beruhen, von denen einige fest auf Beweisen beruhen, andere auf einer Mischung aus vorherigen Analysen, Intuition, Vermutungen, Urteilsvermögen, Theorie usw.

Angenommen, ich und mein vorsichtiger Freund Test Everything haben beide eine Protokolltransformation als Antwort ausgewählt, aber ich komme zu dieser Schlussfolgerung, basierend auf einer Mischung aus physikalischem Denken und früheren Erfahrungen mit Daten, während Test Everything eine Protokollskala basierend auf Box-Cox-Tests und Schätzungen auswählt eines Parameters.

Jetzt verwenden wir beide dieselbe multiple Regression. Haben unsere P-Werte unterschiedliche Interpretationen? Bei einer Interpretation hängen die P-Werte von Test Everything von ihren vorherigen Schlussfolgerungen ab. Ich habe auch Schlussfolgerungen verwendet, aber meistens waren sie informell, basierend auf einer langen Reihe früherer Grafiken, Berechnungen usw. in früheren Projekten. Wie ist das zu melden?

Natürlich sind die Regressionsergebnisse für Test Everything und mich genau gleich.

Dieselbe Mischung aus vernünftiger Beratung und zweifelhafter Philosophie gilt für die Wahl der Prädiktoren und der funktionalen Form. Wirtschaftswissenschaftler werden zum Beispiel allgemein gelehrt, frühere theoretische Diskussionen zu respektieren und Daten aus gutem Grund zu beschnüffeln. In den schwächsten Fällen ist die betreffende Theorie jedoch nur ein vorläufiger Vorschlag, der zuvor in der Literatur gemacht wurde, sehr wahrscheinlich nach einer empirischen Analyse. Literaturstellen heiligen jedoch, während das Lernen aus den vorliegenden Daten für viele Autoren suspekt ist.

Nick Cox
quelle
Sehr klar (+1).
gui11aume
1
+1. Es gibt jedoch einen langfristigen Unterschied in der Leistung Ihrer Analysen gegenüber den Analysen von Test Everything. Jedes Mal, wenn diese Analyse ausgeführt wird, verwenden Sie dieselbe Strategie, die auf den Angaben in der Literatur basiert (die experimentell nicht von Experiment zu Experiment schwankt). OTOH, die Daten sind zufällige Stichproben und die Ergebnisse der Box-Cox-Tests schwanken von Studie zu Studie.
gung - Wiedereinsetzung von Monica
Das ist lustig, aber meine Erfahrung ändert sich auch langfristig.
Nick Cox