Ich bin ein Diplom-Psychologe, und da ich mehr und mehr selbständige Studien in Statistik mache, staune ich zunehmend über die Unzulänglichkeit meiner formalen Ausbildung. Sowohl die persönliche Erfahrung als auch die Erfahrung aus zweiter Hand legen nahe, dass die statistische Strenge in der Ausbildung von Studenten und Absolventen in der Psychologie weit verbreitet ist. Aus diesem Grund hielt ich es für nützlich, dass unabhängige Lernende wie ich eine Liste der "statistischen Sünden" erstellen, in der statistische Praktiken aufgeführt werden, die den Studenten als Standardpraktiken beigebracht wurden und die entweder von höheren (leistungsfähigeren oder flexibleren) Praktiken abgelöst werden robuste, etc.) moderne Methoden oder offen gesagt als ungültig erwiesen. In der Erwartung, dass auch andere Bereiche einen ähnlichen Sachverhalt aufweisen könnten, schlage ich ein Community-Wiki vor, in dem wir eine Liste statistischer Sünden disziplinenübergreifend sammeln können.
227
Antworten:
Fehler beim Betrachten (Plotten) der Daten.
quelle
Die meisten Interpretationen von p-Werten sind sündig! Die konventionelle Verwendung von p-Werten ist stark fehlerhaft; eine Tatsache, die meines Erachtens die Standardansätze für die Lehre von Hypothesentests und Signifikanztests in Frage stellt.
Haller und Krause haben festgestellt, dass statistische Instruktoren fast genauso wahrscheinlich sind wie Studenten, die p-Werte falsch interpretieren. (Machen Sie den Test in ihrer Arbeit und sehen Sie, wie Sie es machen.) Steve Goodman spricht dafür, die konventionelle (falsche) Verwendung des p-Werts zugunsten von Wahrscheinlichkeiten zu verwerfen. Das Hubbard-Papier ist ebenfalls einen Blick wert.
Haller und Krauss. Fehlinterpretationen von Bedeutung: Ein Problem, das Schüler mit ihren Lehrern teilen . Methods of Psychological Research (2002) vol. 7 (1) S. 1-20 ( PDF )
Hubbard und Bayarri. Verwirrung über Evidenzmaße (p) gegenüber Fehlern (α) bei klassischen statistischen Tests . Der amerikanische Statistiker (2003) vol. 57 (3)
Guter Mann. Hin zu evidenzbasierter medizinischer Statistik. 1: Der P-Wert-Irrtum. Ann Intern Med. (1999) vol. 130 (12) S. 995-1004 ( PDF )
Siehe auch:
Wagenmakers, EJ. Eine praktische Lösung für die allgegenwärtigen Probleme der p-Werte. Psychonomic Bulletin & Review, 14 (5), 779-804.
für einige eindeutige Fälle, in denen sogar die nominell "richtige" Interpretation eines p-Wertes aufgrund der vom Experimentator getroffenen Entscheidungen falsch gemacht wurde.
Update (2016) : Die American Statistical Association hat 2016 eine Erklärung zu den p-Werten veröffentlicht (siehe hier) . Dies war in gewisser Weise eine Reaktion auf das "Verbot von p-Werten", das etwa ein Jahr zuvor von einem Psychologie-Journal herausgegeben worden war.
quelle
Die gefährlichste Falle, auf die ich bei der Arbeit an einem Vorhersagemodell gestoßen bin, besteht darin, einen Testdatensatz nicht frühzeitig zu reservieren, um ihn der "endgültigen" Leistungsbewertung zu widmen.
Es ist wirklich einfach, die Vorhersagegenauigkeit Ihres Modells zu überschätzen, wenn Sie die Möglichkeit haben, die Testdaten beim Ändern der Parameter, Auswählen des vorherigen und Auswählen des Stoppkriteriums für den Lernalgorithmus irgendwie zu verwenden ...
Um dieses Problem zu vermeiden, sollten Sie Ihre Daten vor Beginn der Arbeit an einem neuen Datensatz wie folgt aufteilen:
Teilen Sie dann Ihr Entwicklungsset in ein "Trainingsentwicklungsset" und ein "Testentwicklungsset" auf, wobei Sie das Trainingsentwicklungsset verwenden, um verschiedene Modelle mit unterschiedlichen Parametern zu trainieren und die besten anhand der Leistung auf dem Testentwicklungsset auszuwählen. Sie können die Rastersuche auch mit Kreuzvalidierung durchführen, jedoch nur für den Entwicklungssatz. Verwenden Sie das Evaluierungsset niemals, wenn die Modellauswahl nicht zu 100% erfolgt ist.
Wenn Sie mit der Modellauswahl und den Parametern vertraut sind, führen Sie eine 10-fache Kreuzvalidierung des Evaluierungssatzes durch, um eine Vorstellung von der "echten" Vorhersagegenauigkeit des ausgewählten Modells zu erhalten.
Auch wenn Ihre Daten temporär sind, ist es am besten, die Aufteilung der Entwicklung / Auswertung auf einen Zeitcode zu wählen: "Es ist schwierig, Vorhersagen zu treffen - insbesondere über die Zukunft."
quelle
Ausgabe von p-Werten beim Data-Mining (Hypothesenerkennung) anstelle von Statistiken (Hypothesentest).
quelle
Testen der Hypothesen gegen (zum Beispiel in einer Gaußschen Einstellung)H 1 : μ ≤ 0H0: μ = 0 H1: μ ≤ 0
um zu rechtfertigen, dass in einem Modell ist (dh mischen Sie " wird nicht verworfen" und " ist wahr").H 0 H 0μ=0 H0 H0
Ein sehr gutes Beispiel für diese Art von (sehr schlechten) Argumenten ist, wenn Sie testen, ob die Varianzen zweier Gaußscher gleich sind (oder nicht), bevor Sie testen, ob ihr Mittelwert gleich ist oder nicht, unter der Annahme gleicher Varianz.
Ein anderes Beispiel tritt auf, wenn Sie die Normalität (im Gegensatz zur Nicht-Normalität) testen, um die Normalität zu rechtfertigen. Jeder Statistiker hat das im Leben getan? es ist baaad :) (und sollte die Leute dazu bringen, die Robustheit auf Nicht-Gauß-Charakter zu prüfen)
quelle
Ein paar Fehler, die mich stören:
Vorausgesetzt, unvoreingenommene Schätzer sind immer besser als voreingenommene Schätzer.
Unter der Annahme, dass ein hohes ein gutes Modell impliziert, impliziert ein niedriges ein schlechtes Modell.R 2R2 R2
Korrelation falsch interpretieren / anwenden.
Zählpunktschätzungen ohne Standardfehler.
Verwenden von Methoden, die eine Art multivariate Normalität annehmen (z. B. lineare Diskriminanzanalyse), wenn robustere, leistungsfähigere, nicht / semiparametrische Methoden verfügbar sind.
Verwenden des p-Werts als Maß für die Stärke zwischen einem Prädiktor und der Antwort und nicht als Maß dafür, wie viele Belege für eine Beziehung vorliegen .
quelle
Dichotomisierung einer kontinuierlichen Prädiktorvariablen, um entweder die Analyse zu "vereinfachen" oder um das "Problem" der Nichtlinearität in der Wirkung des kontinuierlichen Prädiktors zu lösen.
quelle
Ich beantworte die Frage nicht wirklich, aber es gibt ein ganzes Buch zu diesem Thema:
Phillip I. Gut, James William Hardin (2003). Häufige Fehler in Statistiken (und wie man sie vermeidet). Wiley. ISBN 9780471460688
quelle
Interpretieren
Probability(data | hypothesis)
alsProbability(hypothesis | data)
ohne die Anwendung des Bayes-Theorems.quelle
Ritualisierte Statistik.
Diese "Sünde" ist, wenn du alles anwendest, was dir beigebracht wurde, ungeachtet seiner Angemessenheit, weil es so ist, wie Dinge getan werden. Es ist eine Statistik, die eine Ebene höher liegt und die Maschine Ihre Statistik für Sie auswählen lässt.
Beispiele sind Einführungen in Statistik-Level-Schüler, die versuchen, alles in ihren bescheidenen T-Test und das ANOVA-Toolkit zu integrieren, oder immer dann, wenn sich jemand mit der Frage "Oh, ich habe kategoriale Daten, ich sollte X verwenden" befasst, ohne sich das anzuschauen Daten oder betrachten Sie die gestellte Frage.
Eine Variation dieser Sünde beinhaltet die Verwendung von Code, den Sie nicht verstehen, um eine Ausgabe zu erzeugen, die Sie nur irgendwie verstehen, aber kennen "die fünfte Spalte, ungefähr 8 Zeilen nach unten" oder was auch immer die Antwort ist, nach der Sie suchen sollen.
quelle
Möglicherweise schrittweise Regression und andere Testformen nach der Modellauswahl.
Die Auswahl unabhängiger Variablen für die Modellierung ohne eine A-priori- Hypothese hinter den vorhandenen Beziehungen kann unter anderem zu logischen Irrtümern oder falschen Korrelationen führen.
Nützliche Referenzen (aus biologischer / biostatistischer Sicht):
Kozak, M. & Azevedo, R. (2011). Ist die schrittweise Auswahl von Variablen zur Erstellung von Modellen für die sequentielle Pfadanalyse sinnvoll? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x
Whittingham, MJ, Stephens, P., Bradbury, RB & Freckleton, RP (2006). Warum setzen wir in Ökologie und Verhalten immer noch schrittweise Modellierung ein? The Journal of Animal Ecology, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x
Frank Harrell, Regressionsmodellierungsstrategien , Springer 2001.
quelle
In Konferenzbeiträgen und sogar in Zeitschriften sehe ich eine überraschende Menge darin, mehrere Vergleiche (z. B. von bivariaten Korrelationen) anzustellen und dann alle p <.05s als "signifikant" zu melden (wobei die Richtigkeit oder Falschheit davon im Moment ignoriert wird).
Ich weiß auch, was Sie mit Psychologie-Absolventen meinen - ich habe einen Doktortitel in Psychologie und lerne immer noch nur richtig. Es ist ziemlich schlimm, ich denke, die Psychologie muss die quantitative Datenanalyse ernster nehmen, wenn wir sie verwenden wollen (was wir natürlich tun sollten).
quelle
Erforschend sein, aber vorgeben, konfirmatorisch zu sein. Dies kann passieren, wenn man die Analysestrategie (dh Modellanpassung, Variablenauswahl usw.) datengetrieben oder ergebnisgetrieben modifiziert, dies jedoch nicht offen angibt und dann nur die "besten" (dh mit den kleinsten p-Werten) Ergebnisse als ob ausgibt es war die einzige Analyse gewesen. Dies betrifft auch den Punkt, an dem Chris Beeley mehrere Tests durchgeführt hat und der in wissenschaftlichen Berichten zu einer hohen Falsch-Positiv-Rate führt.
quelle
Das, was ich ziemlich oft sehe und immer meine Zahnräder knirscht, ist die Annahme, dass ein statistisch signifikanter Haupteffekt in einer Gruppe und ein nicht statistisch signifikanter Haupteffekt in einer anderen Gruppe einen signifikanten Effekt x Gruppeninteraktion implizieren.
quelle
Insbesondere in der Epidemiologie und im Gesundheitswesen - Verwenden von Arithmetik anstelle von logarithmischer Skala, wenn Diagramme relativer Assoziationsmaße (Hazard Ratio, Odds Ratio oder Risk Ratio) angezeigt werden.
Mehr Infos hier .
quelle
Korrelation impliziert Kausalität, was nicht so schlimm ist wie die Annahme der Nullhypothese.
quelle
A and B are correlated
Regel nur zu schließen,A causes B
aber nichtB causes A
... (und vergessen,C
welche UrsachenA
undB
)Analyse von Geschwindigkeitsdaten (Genauigkeit usw.) unter Verwendung von ANOVA, wobei angenommen wird, dass die Geschwindigkeitsdaten einen Gaußschen Verteilungsfehler aufweisen, wenn sie tatsächlich binomial verteilt sind. Dixon (2008) bietet eine Diskussion der Folgen dieser Sünde und die Erforschung geeigneterer Analyseansätze.
quelle
Eine derzeit verbreitete Methode zeichnet 95% -Konfidenzintervalle um die rohen Leistungswerte in Entwürfen für wiederholte Messungen auf, wenn sie sich nur auf die Varianz eines Effekts beziehen. Ein Diagramm der Reaktionszeiten in einem Entwurf mit wiederholten Messungen mit Konfidenzintervallen, in denen der Fehlerterm aus der MSE einer ANOVA mit wiederholten Messungen abgeleitet wird. Diese Konfidenzintervalle repräsentieren nichts Sinnvolles. Sie repräsentieren sicherlich nichts über die absolute Reaktionszeit. Sie können den Fehlerausdruck verwenden, um Konfidenzintervalle für den Effekt zu generieren. Dies wird jedoch nur selten durchgeführt.
quelle
Während ich mich auf vieles beziehen kann, was Michael Lew sagt, übersieht der Verzicht auf p-Werte zugunsten von Likelihood-Verhältnissen immer noch ein allgemeineres Problem: die Überbetonung probabilistischer Ergebnisse gegenüber Effektgrößen, die erforderlich sind, um dem Ergebnis eine substanzielle Bedeutung zu verleihen. Diese Art von Fehler tritt in allen Formen und Größen auf, und ich halte ihn für den heimtückischsten statistischen Fehler. Unter Berufung auf J. Cohen und M. Oakes und andere habe ich unter http://integrativestatistics.com/insidious.htm einen Beitrag dazu verfasst .
quelle
Die Annahme, dass der Fehler normalverteilt ist und eine konstante Varianz zwischen den Behandlungen aufweist, konnte nicht getestet werden. Diese Annahmen werden nicht immer getestet, daher wird wahrscheinlich häufig eine Modellanpassung nach der Methode der kleinsten Quadrate verwendet, wenn dies tatsächlich unangemessen ist.
quelle
Mein Intro-Psychometrie-Kurs im Grundstudium dauerte mindestens zwei Wochen, um zu lehren, wie man eine schrittweise Regression durchführt. Gibt es eine Situation, in der schrittweise Regression eine gute Idee ist?
quelle
Meine alten Statistiken prof hatten eine "Faustregel" für den Umgang mit Ausreißern: Wenn Sie einen Ausreißer auf Ihrem Streudiagramm sehen, bedecken Sie ihn mit Ihrem Daumen :)
quelle
Dies mag eher eine Pop-Statistik-Antwort sein als das, wonach Sie suchen, aber:
Verwenden des Mittelwerts als Indikator für die Position, wenn die Daten stark verdreht sind .
Dies ist nicht unbedingt ein Problem, wenn Sie und Ihr Publikum wissen, wovon Sie sprechen, aber dies ist im Allgemeinen nicht der Fall, und der Median gibt häufig eine bessere Vorstellung davon, was vor sich geht.
Mein Lieblingsbeispiel sind Durchschnittslöhne, die normalerweise als "Durchschnittslöhne" ausgewiesen werden. Abhängig von der Ungleichheit von Einkommen und Vermögen in einem Land kann dies erheblich vom Medianlohn abweichen, der einen viel besseren Indikator dafür liefert, wo sich die Menschen im wirklichen Leben befinden. In Australien beispielsweise, wo wir eine relativ geringe Ungleichheit haben, liegt der Median 10-15% unter dem Mittelwert . In den USA ist der Unterschied viel größer , der Median liegt unter 70% des Mittelwerts und der Abstand nimmt zu.
Die Angabe des "Durchschnittslohns" ergibt ein rosigeres Bild, als es gerechtfertigt ist, und könnte auch einer großen Anzahl von Menschen den falschen Eindruck vermitteln, dass sie nicht so viel verdienen wie "normale" Menschen.
quelle
Dass der p-Wert die Wahrscheinlichkeit ist, dass die Nullhypothese wahr ist und (1-p) die Wahrscheinlichkeit ist, dass die Alternativhypothese wahr ist. Wenn die Nullhypothese nicht verworfen wird, ist die Alternativhypothese falsch usw.
quelle
In ähnlicher Weise wie @dirkan - Die Verwendung von p-Werten als formales Maß für den Beweis, dass die Nullhypothese wahr ist. Es weist einige gute heuristische und intuitiv gute Merkmale auf, ist jedoch im Wesentlichen ein unvollständiges Maß für die Evidenz, da es keinen Hinweis auf die alternative Hypothese gibt. Während es unwahrscheinlich ist, dass die Daten unter der Null liegen (was zu einem kleinen p-Wert führt), sind die Daten unter der alternativen Hypothese möglicherweise noch unwahrscheinlicher .
quelle
Verwenden von Kreisdiagrammen zur Veranschaulichung der relativen Häufigkeiten. Mehr hier .
quelle
Verwendung von Statistiken / Wahrscheinlichkeiten beim Testen von Hypothesen zur Messung der "absoluten Wahrheit". Statistiken können dies einfach nicht, sie können nur bei der Entscheidung zwischen Alternativen von Nutzen sein, die von "außerhalb" des statistischen Paradigmas angegeben werden müssen. Aussagen wie "die Nullhypothese wird durch die Statistik als wahr erwiesen" sind einfach falsch; Statistiken können nur sagen, "die Nullhypothese wird von den Daten im Vergleich zur Alternativhypothese favorisiert". Wenn Sie dann annehmen, dass entweder die Nullhypothese oder die Alternative wahr sein muss, können Sie "die Null hat sich als wahr erwiesen" sagen, aber dies ist nur eine unbedeutende Konsequenz Ihrer Annahme, und nichts, was durch die Daten bewiesen wird.
quelle
Und ähnlich (oder fast genauso wie) @ ogrisels Antwort , bei der eine Rastersuche durchgeführt und nur das beste Ergebnis gemeldet wird.
quelle
(Mit etwas Glück wird dies kontrovers diskutiert.)
Verwendung eines Neyman-Pearson-Ansatzes zur statistischen Analyse wissenschaftlicher Experimente. Oder schlimmer noch, mit einem schlecht definierten Hybrid aus Neyman-Pearson und Fisher.
quelle
Beantragung, und vielleicht zu erhalten Das Flussdiagramm : Die grafische Ding , wo Sie sagen , was das Niveau Ihrer Variablen sind und welche Art von Beziehung , die Sie suchen, und folgen Sie den Pfeilen nach unten einen Markenname - Test oder einen Markennamen Statistik zu erhalten . Manchmal mit mysteriösen "parametrischen" und "nicht parametrischen" Pfaden angeboten.
quelle