Ich habe gehört, dass es keine gute Idee ist, einen statistischen Test anhand des Ergebnisses eines anderen zu wählen. Das kommt mir allerdings komisch vor. Beispielsweise wird häufig ein nicht parametrischer Test verwendet, wenn ein anderer Test darauf hinweist, dass die Residuen nicht normal verteilt sind. Dieser Ansatz scheint ziemlich weit verbreitet zu sein, scheint jedoch nicht mit dem ersten Satz in diesem Absatz übereinzustimmen. Ich hatte nur gehofft, eine Klärung zu diesem Thema zu bekommen.
hypothesis-testing
Jimj
quelle
quelle
Antworten:
Unter der Annahme, dass die Wahrscheinlichkeit für die Beobachtung von Daten ist, die so extrem oder noch extremer sind, wenn H 0 wahr ist, wie lautet dann die Interpretation von p, bei der p durch einen Prozess ermittelt wird, bei dem bei der Auswahl des Tests eine zufällige Entscheidung getroffen wurde, dass produziert das p ? Die Antwort ist unbekannt (oder zumindest fast unbekannt). Durch die Entscheidung, den Test auf der Grundlage eines anderen probabilistischen Prozesses durchzuführen oder nicht, haben Sie die Interpretation Ihres Ergebnisses noch komplizierter gemacht. pp H0 p p p p Die Werte sind maximal interpretierbar, wenn der Probenumfang und der Analyseplan im Voraus vollständig ausgewählt wurden. In anderen Situationen werden die Interpretationen schwierig, deshalb ist es keine gute Idee. Davon abgesehen ist dies eine allgemein akzeptierte Praxis. Warum sollte man sich überhaupt die Mühe machen, einen Test durchzuführen, wenn man feststellt, dass der geplante Test ungültig ist? Die Antwort auf diese Frage ist weit weniger sicher. Dies alles läuft auf die einfache Tatsache hinaus, dass das Testen der Signifikanz der Nullhypothese (der primäre Anwendungsfall von ) einige Probleme aufweist, die schwer zu überwinden sind.p
quelle
Ja, viele Leute machen so etwas und ändern ihren zweiten Test in einen, der sich mit Heteroskedastizität befasst, wenn sie die Varianzgleichheit ablehnen, und so weiter.
Nur weil etwas gemeinsam ist, heißt das noch lange nicht, dass es klug ist.
In der Tat wird an einigen Stellen (ich werde die am schlimmsten beleidigenden Disziplinen nicht nennen) eine Menge dieser formalen Hypothesentests unterrichtet, die von anderen formalen Hypothesentests abhängen.
Das Problem dabei ist, dass Ihre Prozeduren ihre nominalen Eigenschaften nicht haben, manchmal sogar nicht in der Nähe. (Andererseits könnte es noch schlimmer sein, solche Dinge anzunehmen, ohne die potenzielle extreme Verletzung in Betracht zu ziehen.)
In mehreren Veröffentlichungen wird empfohlen, im heteroskedastischen Fall einfach so zu verhalten, als ob die Varianzen nicht gleich wären, als dies zu testen und nur bei Ablehnung etwas dagegen zu unternehmen.
Im Normalfall ist es weniger klar. Zumindest bei großen Stichproben ist die Normalität in vielen Fällen nicht so entscheidend (aber ironischerweise lehnt Ihr Test der Normalität bei großen Stichproben viel eher ab), solange die Nicht-Normalität nicht zu wild ist. Eine Ausnahme bilden Vorhersageintervalle, bei denen Ihre Verteilungsannahme wirklich genau richtig sein muss.
Zum Teil besteht ein Problem darin, dass Hypothesentests eine andere Frage beantworten als die, die beantwortet werden muss. Sie nicht wirklich wissen müssen , ‚sind die Daten wirklich normal‘ (fast immer, wird es nicht genau normal a priori ). Die Frage ist vielmehr, wie stark sich das Ausmaß der Nichtnormalität auf meine Schlussfolgerung auswirkt.
Das zweite Problem ist in der Regel nahezu unabhängig von der Stichprobengröße oder wird mit zunehmender Stichprobengröße sogar besser. Bei großen Stichprobengrößen werden Hypothesentests jedoch fast immer abgelehnt.
Es gibt viele Situationen, in denen es robuste oder sogar verteilungsfreie Verfahren gibt, die selbst im Normalfall nahezu vollständig effizient sind (und möglicherweise bei einigen recht bescheidenen Abweichungen weitaus effizienter sind) - in vielen Fällen erscheint es unsinnig, das nicht zu akzeptieren gleicher vorsichtiger Ansatz.
quelle
Die Hauptprobleme wurden von anderen gut erklärt, sind jedoch mit den zugrunde liegenden oder damit verbundenen verwechselt
Überachtung von P-Werten, höchstens eine Art von Belegen in der Statistik.
Die Zurückhaltung, zu sehen, dass statistische Berichte unweigerlich auf einer Kombination von Entscheidungen beruhen, von denen einige fest auf Beweisen beruhen, andere auf einer Mischung aus vorherigen Analysen, Intuition, Vermutungen, Urteilsvermögen, Theorie usw.
Angenommen, ich und mein vorsichtiger Freund Test Everything haben beide eine Protokolltransformation als Antwort ausgewählt, aber ich komme zu dieser Schlussfolgerung, basierend auf einer Mischung aus physikalischem Denken und früheren Erfahrungen mit Daten, während Test Everything eine Protokollskala basierend auf Box-Cox-Tests und Schätzungen auswählt eines Parameters.
Jetzt verwenden wir beide dieselbe multiple Regression. Haben unsere P-Werte unterschiedliche Interpretationen? Bei einer Interpretation hängen die P-Werte von Test Everything von ihren vorherigen Schlussfolgerungen ab. Ich habe auch Schlussfolgerungen verwendet, aber meistens waren sie informell, basierend auf einer langen Reihe früherer Grafiken, Berechnungen usw. in früheren Projekten. Wie ist das zu melden?
Natürlich sind die Regressionsergebnisse für Test Everything und mich genau gleich.
Dieselbe Mischung aus vernünftiger Beratung und zweifelhafter Philosophie gilt für die Wahl der Prädiktoren und der funktionalen Form. Wirtschaftswissenschaftler werden zum Beispiel allgemein gelehrt, frühere theoretische Diskussionen zu respektieren und Daten aus gutem Grund zu beschnüffeln. In den schwächsten Fällen ist die betreffende Theorie jedoch nur ein vorläufiger Vorschlag, der zuvor in der Literatur gemacht wurde, sehr wahrscheinlich nach einer empirischen Analyse. Literaturstellen heiligen jedoch, während das Lernen aus den vorliegenden Daten für viele Autoren suspekt ist.
quelle