Was sind häufige statistische Sünden?

227

Ich bin ein Diplom-Psychologe, und da ich mehr und mehr selbständige Studien in Statistik mache, staune ich zunehmend über die Unzulänglichkeit meiner formalen Ausbildung. Sowohl die persönliche Erfahrung als auch die Erfahrung aus zweiter Hand legen nahe, dass die statistische Strenge in der Ausbildung von Studenten und Absolventen in der Psychologie weit verbreitet ist. Aus diesem Grund hielt ich es für nützlich, dass unabhängige Lernende wie ich eine Liste der "statistischen Sünden" erstellen, in der statistische Praktiken aufgeführt werden, die den Studenten als Standardpraktiken beigebracht wurden und die entweder von höheren (leistungsfähigeren oder flexibleren) Praktiken abgelöst werden robuste, etc.) moderne Methoden oder offen gesagt als ungültig erwiesen. In der Erwartung, dass auch andere Bereiche einen ähnlichen Sachverhalt aufweisen könnten, schlage ich ein Community-Wiki vor, in dem wir eine Liste statistischer Sünden disziplinenübergreifend sammeln können.

Mike Lawrence
quelle
5
Mir ist bewusst, dass "Sünde" möglicherweise entzündlich ist und dass einige Aspekte der statistischen Analyse nicht schwarzweiß sind. Meine Absicht ist es, Fälle zu erbitten, in denen eine bestimmte allgemein gelehrte Praxis eindeutig unangemessen ist.
Mike Lawrence
5
Wenn Sie
möchten,
1
vielleicht ist es retitle Biowissenschaft statistische Sünden ... oder etwas anderes spezifischere ...?
John
1
@whuber Es gab einige gute Antworten, also habe ich sie beide zusammengeführt.
1
Hallo @Amanda, könntest du hier einen Hinweis darauf geben, was in der Diskussion ist? Niemand mag die Möglichkeit, sich überraschen zu lassen.
Naught101

Antworten:

118

Fehler beim Betrachten (Plotten) der Daten.

vqv
quelle
+1 Gut gemacht! Ich bin schockiert, dass dies noch nicht erwähnt wurde.
whuber
1
Sehr sehr wichtig!
deps_stats
1
Wahrscheinlich die häufigste.
Carlos Cinelli
115

Die meisten Interpretationen von p-Werten sind sündig! Die konventionelle Verwendung von p-Werten ist stark fehlerhaft; eine Tatsache, die meines Erachtens die Standardansätze für die Lehre von Hypothesentests und Signifikanztests in Frage stellt.

Haller und Krause haben festgestellt, dass statistische Instruktoren fast genauso wahrscheinlich sind wie Studenten, die p-Werte falsch interpretieren. (Machen Sie den Test in ihrer Arbeit und sehen Sie, wie Sie es machen.) Steve Goodman spricht dafür, die konventionelle (falsche) Verwendung des p-Werts zugunsten von Wahrscheinlichkeiten zu verwerfen. Das Hubbard-Papier ist ebenfalls einen Blick wert.

Haller und Krauss. Fehlinterpretationen von Bedeutung: Ein Problem, das Schüler mit ihren Lehrern teilen . Methods of Psychological Research (2002) vol. 7 (1) S. 1-20 ( PDF )

Hubbard und Bayarri. Verwirrung über Evidenzmaße (p) gegenüber Fehlern (α) bei klassischen statistischen Tests . Der amerikanische Statistiker (2003) vol. 57 (3)

Guter Mann. Hin zu evidenzbasierter medizinischer Statistik. 1: Der P-Wert-Irrtum. Ann Intern Med. (1999) vol. 130 (12) S. 995-1004 ( PDF )

Siehe auch:

Wagenmakers, EJ. Eine praktische Lösung für die allgegenwärtigen Probleme der p-Werte. Psychonomic Bulletin & Review, 14 (5), 779-804.

für einige eindeutige Fälle, in denen sogar die nominell "richtige" Interpretation eines p-Wertes aufgrund der vom Experimentator getroffenen Entscheidungen falsch gemacht wurde.

Update (2016) : Die American Statistical Association hat 2016 eine Erklärung zu den p-Werten veröffentlicht (siehe hier) . Dies war in gewisser Weise eine Reaktion auf das "Verbot von p-Werten", das etwa ein Jahr zuvor von einem Psychologie-Journal herausgegeben worden war.

Michael Lew
quelle
2
@Michael (+1) Ich habe Links zu Abstracts und ungated PDFs hinzugefügt. Ich hoffe es macht dir nichts aus.
chl
7
+1, aber ich möchte einige kritische Kommentare abgeben. Die Öffnungslinie betrifft, könnte man einfach sagen , wie gut , dass „fast alle“ (in dem Maß theoretischen Sinne) Interpretationen von jedem gut definierten Konzept falsch sind, da nur eine richtig ist. Zweitens, worauf beziehen Sie sich, wenn Sie "die konventionelle Verwendung" und "Standardansätze" sagen? Diese vagen Hinweise klingen wie ein Strohmann. Sie stimmen nicht mit dem überein, was man zum Beispiel in der Literatur zur Statistikpädagogik findet.
Whuber
4
@Whuber Schauen Sie sich das Goodman-Papier an. Dies stimmt ziemlich gut mit meinen Erfahrungen auf dem Gebiet der Pharmakologie überein. Die Methoden sagen "Ergebnisse, bei denen P <0,05 als statistisch signifikant angenommen wurde" und die Ergebnisse werden dann mit + für p <0,05, ++ für p <0,01 und +++ für p <0,0001 dargestellt. Die Aussage impliziert die Kontrolle der Fehlerraten nach Neyman und Pearson, aber die Verwendung unterschiedlicher p-Niveaus deutet auf einen Fisher-Ansatz hin, bei dem der p-Wert ein Index der Beweiskraft gegen die Nullhypothese ist. Wie Goodman betont, können Sie nicht gleichzeitig die Fehlerraten kontrollieren und die Beweiskraft beurteilen.
Michael Lew
8
@Michael Es gibt alternative, großzügigere Interpretationen dieser Art von Berichterstattung. Beispielsweise ist dem Autor möglicherweise bewusst, dass der Leser möglicherweise seine eigenen Signifikanzschwellen anwenden und daher P-Werte markieren möchte, um ihnen zu helfen. Alternativ könnte der Autor mögliche Probleme mit Mehrfachvergleichen kennen und die unterschiedlichen Niveaus in einer Bonferroni-ähnlichen Anpassung verwenden. Vielleicht sollte ein Teil der Schuld für den Missbrauch von p-Werten zu Füßen des Lesers und nicht des Autors liegen.
whuber
4
@Whuber Ich stimme voll und ganz zu, aber nur das, was Sie vorschlagen, trifft in einigen wenigen Fällen zu (eine eingeschränkte Version von "ganz"). Es gibt einige Journale, in denen angegeben wird, dass p-Werte nicht mit exakten Werten, sondern mit einem, zwei oder drei Sternen angegeben werden sollen, sodass diese Journale eine gewisse Verantwortung für das Ergebnis tragen. Sowohl diese unüberlegte Anforderung als auch die scheinbar naive Verwendung von p-Werten könnten darauf zurückzuführen sein, dass die Unterschiede zwischen Fehlerraten und Nachweisen in den verschiedenen einleitenden statistischen Texten, die sich in meinem Regal befinden, nicht eindeutig erklärt wurden.
Michael Lew
73

Die gefährlichste Falle, auf die ich bei der Arbeit an einem Vorhersagemodell gestoßen bin, besteht darin, einen Testdatensatz nicht frühzeitig zu reservieren, um ihn der "endgültigen" Leistungsbewertung zu widmen.

Es ist wirklich einfach, die Vorhersagegenauigkeit Ihres Modells zu überschätzen, wenn Sie die Möglichkeit haben, die Testdaten beim Ändern der Parameter, Auswählen des vorherigen und Auswählen des Stoppkriteriums für den Lernalgorithmus irgendwie zu verwenden ...

Um dieses Problem zu vermeiden, sollten Sie Ihre Daten vor Beginn der Arbeit an einem neuen Datensatz wie folgt aufteilen:

  • Entwicklungsset
  • Auswertungsset

Teilen Sie dann Ihr Entwicklungsset in ein "Trainingsentwicklungsset" und ein "Testentwicklungsset" auf, wobei Sie das Trainingsentwicklungsset verwenden, um verschiedene Modelle mit unterschiedlichen Parametern zu trainieren und die besten anhand der Leistung auf dem Testentwicklungsset auszuwählen. Sie können die Rastersuche auch mit Kreuzvalidierung durchführen, jedoch nur für den Entwicklungssatz. Verwenden Sie das Evaluierungsset niemals, wenn die Modellauswahl nicht zu 100% erfolgt ist.

Wenn Sie mit der Modellauswahl und den Parametern vertraut sind, führen Sie eine 10-fache Kreuzvalidierung des Evaluierungssatzes durch, um eine Vorstellung von der "echten" Vorhersagegenauigkeit des ausgewählten Modells zu erhalten.

Auch wenn Ihre Daten temporär sind, ist es am besten, die Aufteilung der Entwicklung / Auswertung auf einen Zeitcode zu wählen: "Es ist schwierig, Vorhersagen zu treffen - insbesondere über die Zukunft."

Oger
quelle
5
Ich stimme dem im Prinzip zu, aber bei einem kleinen Datensatz (ich habe oft nur 20-40 Fälle) ist die Verwendung eines separaten Auswertungssatzes nicht praktikabel. Verschachtelte Kreuzvalidierung kann dies
umgehen
11
Im Allgemeinen ist eine enorme Datenmenge erforderlich, damit die Datenaufteilung zuverlässig ist. Deshalb ist eine strenge interne Validierung mit dem Bootstrap so attraktiv.
Frank Harrell
Insbesondere, wenn es sich bei dem Entwicklungssatz um Vergangenheitsdaten und bei dem Auswertungssatz um zukünftige Daten handelt. Warum trainieren Sie nicht nach der Modelloptimierung das endgültige Modell mit seinen festen Parametern für den gesamten Entwicklungssatz und prognostizieren damit den gesamten Evaluierungssatz? In einem realen Szenario konnten Sie zukünftige Daten ohnehin nicht so überprüfen, wie Sie es beschrieben haben, sodass Sie alle relevanten Vergangenheitsdaten verwenden würden.
David Ernst
64

Ausgabe von p-Werten beim Data-Mining (Hypothesenerkennung) anstelle von Statistiken (Hypothesentest).

Neil McGuigan
quelle
2
Können Sie (oder jemand) näher erläutern?
Antoine-Sac
1
siehe en.wikipedia.org/wiki/Data_dredging
Neil McGuigan
Was ist mit p-Werten, die für mehrere Hypothesentests korrigiert wurden (mit etwas Bonferroni-Methode oder einer fortgeschritteneren Korrektur)? Ich würde eher denken, dass es in Ordnung ist, auch im Zusammenhang mit Data Mining?
Antoine-Sac
Ich mag die allgemeine Idee, aber es ist eine Verzerrung, Statistiken mit Hypothesentests gleichzusetzen, wenn die letztere eine Teilmenge der ersteren ist.
Rolando2
46

Testen der Hypothesen gegen (zum Beispiel in einer Gaußschen Einstellung)H 1 : μ 0H0:μ=0H1:μ0

um zu rechtfertigen, dass in einem Modell ist (dh mischen Sie " wird nicht verworfen" und " ist wahr").H 0 H 0μ=0H0H0

Ein sehr gutes Beispiel für diese Art von (sehr schlechten) Argumenten ist, wenn Sie testen, ob die Varianzen zweier Gaußscher gleich sind (oder nicht), bevor Sie testen, ob ihr Mittelwert gleich ist oder nicht, unter der Annahme gleicher Varianz.

Ein anderes Beispiel tritt auf, wenn Sie die Normalität (im Gegensatz zur Nicht-Normalität) testen, um die Normalität zu rechtfertigen. Jeder Statistiker hat das im Leben getan? es ist baaad :) (und sollte die Leute dazu bringen, die Robustheit auf Nicht-Gauß-Charakter zu prüfen)

Robin Girard
quelle
6
Dieselbe Logik ("Fehlen von Beweisen zugunsten von H1" als "Fehlen von H1") gilt im Wesentlichen für alle Anpassungstests. Die Überlegungen tauchen auch oft auf, wenn Leute sagten "der Test war nicht signifikant, wir können daher schlussfolgern, dass es keine Auswirkung von Faktor X / keinen Einfluss der Variablen Y gibt". Ich vermute, die Sünde ist weniger schwer, wenn sie mit Überlegungen zur Teststärke einhergeht (z. B. a-priori-Schätzung der Stichprobengröße, um bei einer bestimmten relevanten Effektstärke eine bestimmte Stärke zu erreichen).
Karakal
Wenn Sie keine Rücksicht auf die Macht nehmen, würde ich sagen, dass das Klammern von wahr ist, wenn es nicht abgelehnt wird, sehr, sehr schlecht ist, während das Klammern von wahr ist, während abgelehnt wird, ist nur ein bisschen falsch :). H 1 H 0H0H1H0
Robin Girard
Toll!! Ja, das macht mich verrückt ..
jpillow
3
Ich versuche, statistisch zu lesen und mich von Zeit zu Zeit darauf einzulassen. Was sind die Alternativen? Ändern Sie Ihr Modell so, dass die alte Null zu ? Die einzige andere Option, die mir in den Sinn kommt, ist, Ihre Studie so zu betreiben, dass ein Versäumnis, die Null zurückzuweisen, in der Praxis nahe genug ist, um die Null zu bestätigen. Wenn Sie beispielsweise sicherstellen möchten, dass durch die Zugabe eines Reagenzes zu Ihren Zellen nicht mehr als 2% von ihnen abgetötet werden, erzielen Sie eine zufriedenstellende Rate falsch negativer Ergebnisse. H1
DocBuckets
Das Testen der @ DocBuckets-Äquivalenz mit zwei einseitigen Tests ist strenger als der leistungsbasierte Ansatz. Sie müssen jedoch eine relevante Mindesteffektgröße festlegen, unter der Sie von praktischer Äquivalenz sprechen können.
David Ernst
46

Ein paar Fehler, die mich stören:

  1. Vorausgesetzt, unvoreingenommene Schätzer sind immer besser als voreingenommene Schätzer.

  2. Unter der Annahme, dass ein hohes ein gutes Modell impliziert, impliziert ein niedriges ein schlechtes Modell.R 2R2R2

  3. Korrelation falsch interpretieren / anwenden.

  4. Zählpunktschätzungen ohne Standardfehler.

  5. Verwenden von Methoden, die eine Art multivariate Normalität annehmen (z. B. lineare Diskriminanzanalyse), wenn robustere, leistungsfähigere, nicht / semiparametrische Methoden verfügbar sind.

  6. Verwenden des p-Werts als Maß für die Stärke zwischen einem Prädiktor und der Antwort und nicht als Maß dafür, wie viele Belege für eine Beziehung vorliegen .

HairyBeast
quelle
5
Würden Sie diese Optionen aufteilen?
Russellpierce
41

Dichotomisierung einer kontinuierlichen Prädiktorvariablen, um entweder die Analyse zu "vereinfachen" oder um das "Problem" der Nichtlinearität in der Wirkung des kontinuierlichen Prädiktors zu lösen.

Mike Lawrence
quelle
18
Ich denke nicht, dass dies wirklich eine "Sünde" ist, da die erzielten Ergebnisse nicht falsch sind. Es werden jedoch viele nützliche Informationen verworfen, so dass dies keine gute Praxis ist.
Rob Hyndman
2
In diesem Sinne überschätzen die Entwürfe für extreme Gruppen die Effektgrößen, während die Verwendung eines Mittelwerts oder Medians die Effektgrößen unterschätzt.
Russellpierce
2
Dies ist nicht einmal eine Sünde, wenn es zwei oder mehr verschiedene Bevölkerungsgruppen gibt. Angenommen, Sie haben trennbare Klassen oder Teilpopulationen, dann kann eine Diskretisierung sinnvoll sein. Ein sehr triviales Beispiel: Würde ich lieber Indikatoren für Standort / Ort / Stadt / Land oder Lat / Long verwenden?
Iterator
3
+1 und es wird eine schwere Sünde, wenn sie anfangen, die Dichotomisierungsgrenze so zu wählen, dass sie eine Art Differenz optimiert, die dann getestet wird.
Erik
5
@Iterator Sie beginnen, den wahren Grund für die Aggregation (in zwei oder mehr Kategorien) zu ermitteln, weil man a priori theoretische Gründe hat zu glauben, dass die Varianz sinnvoll in diese Kategorien unterteilt ist . Wir tun dies zum Beispiel die ganze Zeit, indem wir annehmen, dass Sammlungen von etwa einer Billion Zellen ein Individuum umfassen oder dass ein zusammenhängender 24-Stunden-Zeitraum hier auf der Erde sinnvoll als Einheit interpretiert wird. Durch willkürliche Aggregation werden jedoch nicht nur Informationen (z. B. statistische Potenz) "verworfen", sondern es können (ernsthafte) Verzerrungen in Bezug auf die Beziehungen zwischen Phänomenen auftreten.
Alexis
41

Ich beantworte die Frage nicht wirklich, aber es gibt ein ganzes Buch zu diesem Thema:

Phillip I. Gut, James William Hardin (2003). Häufige Fehler in Statistiken (und wie man sie vermeidet). Wiley. ISBN 9780471460688

ein Stop
quelle
6
+1 Ich habe dieses Buch kurz nach Erscheinen gelesen. Ich bekomme jede Menge Möglichkeiten, statistische Fehler zu machen, daher bin ich immer dankbar, wenn ich darauf hingewiesen werde, bevor ich sie mache!
whuber
41

Ritualisierte Statistik.

Diese "Sünde" ist, wenn du alles anwendest, was dir beigebracht wurde, ungeachtet seiner Angemessenheit, weil es so ist, wie Dinge getan werden. Es ist eine Statistik, die eine Ebene höher liegt und die Maschine Ihre Statistik für Sie auswählen lässt.

Beispiele sind Einführungen in Statistik-Level-Schüler, die versuchen, alles in ihren bescheidenen T-Test und das ANOVA-Toolkit zu integrieren, oder immer dann, wenn sich jemand mit der Frage "Oh, ich habe kategoriale Daten, ich sollte X verwenden" befasst, ohne sich das anzuschauen Daten oder betrachten Sie die gestellte Frage.

Eine Variation dieser Sünde beinhaltet die Verwendung von Code, den Sie nicht verstehen, um eine Ausgabe zu erzeugen, die Sie nur irgendwie verstehen, aber kennen "die fünfte Spalte, ungefähr 8 Zeilen nach unten" oder was auch immer die Antwort ist, nach der Sie suchen sollen.

Fomite
quelle
6
Leider, wenn Sie nicht an statistischen Schlüssen interessiert sind oder wenig Zeit und / oder Ressourcen haben, scheint das Ritual sehr ansprechend zu sein ...
Wahrscheinlichkeitsanalyse
Für mich handelt es sich bei Epigrads Beschreibung um jemanden, der sich übermäßig um Schlussfolgerungen kümmert und Dinge wie Reflexion, Entdeckung und Berücksichtigung der Kausalität vernachlässigt.
Rolando2
35

Möglicherweise schrittweise Regression und andere Testformen nach der Modellauswahl.

Die Auswahl unabhängiger Variablen für die Modellierung ohne eine A-priori- Hypothese hinter den vorhandenen Beziehungen kann unter anderem zu logischen Irrtümern oder falschen Korrelationen führen.

Nützliche Referenzen (aus biologischer / biostatistischer Sicht):

  1. Kozak, M. & Azevedo, R. (2011). Ist die schrittweise Auswahl von Variablen zur Erstellung von Modellen für die sequentielle Pfadanalyse sinnvoll? Physiologia plantarum, 141 (3), 197–200. doi: 10.1111 / j.1399-3054.2010.01431.x

  2. Whittingham, MJ, Stephens, P., Bradbury, RB & Freckleton, RP (2006). Warum setzen wir in Ökologie und Verhalten immer noch schrittweise Modellierung ein? The Journal of Animal Ecology, 75 (5), 1182–9. doi: 10.1111 / j.1365-2656.2006.01141.x

  3. Frank Harrell, Regressionsmodellierungsstrategien , Springer 2001.

Ben Bolker
quelle
32

In Konferenzbeiträgen und sogar in Zeitschriften sehe ich eine überraschende Menge darin, mehrere Vergleiche (z. B. von bivariaten Korrelationen) anzustellen und dann alle p <.05s als "signifikant" zu melden (wobei die Richtigkeit oder Falschheit davon im Moment ignoriert wird).

Ich weiß auch, was Sie mit Psychologie-Absolventen meinen - ich habe einen Doktortitel in Psychologie und lerne immer noch nur richtig. Es ist ziemlich schlimm, ich denke, die Psychologie muss die quantitative Datenanalyse ernster nehmen, wenn wir sie verwenden wollen (was wir natürlich tun sollten).

Chris Beeley
quelle
9
Dies ist besonders wichtig. Ich erinnere mich an eine Studie darüber, ob Ramadan schlecht für Babys war, deren Mütter fasteten. Es sah plausibel aus (weniger Nahrung, geringeres Geburtsgewicht), aber dann habe ich mir den Anhang angesehen. Tausende von Hypothesen und einige Prozent davon lagen im "signifikanten" Bereich. Sie bekommen seltsame "Schlussfolgerungen" wie "es ist schlecht für das Kind, wenn der Ramadan der 2., 4. oder 6. Monat ist".
Carlos
29

Erforschend sein, aber vorgeben, konfirmatorisch zu sein. Dies kann passieren, wenn man die Analysestrategie (dh Modellanpassung, Variablenauswahl usw.) datengetrieben oder ergebnisgetrieben modifiziert, dies jedoch nicht offen angibt und dann nur die "besten" (dh mit den kleinsten p-Werten) Ergebnisse als ob ausgibt es war die einzige Analyse gewesen. Dies betrifft auch den Punkt, an dem Chris Beeley mehrere Tests durchgeführt hat und der in wissenschaftlichen Berichten zu einer hohen Falsch-Positiv-Rate führt.

psj
quelle
26

Das, was ich ziemlich oft sehe und immer meine Zahnräder knirscht, ist die Annahme, dass ein statistisch signifikanter Haupteffekt in einer Gruppe und ein nicht statistisch signifikanter Haupteffekt in einer anderen Gruppe einen signifikanten Effekt x Gruppeninteraktion implizieren.

pro Sekunde
quelle
24

Insbesondere in der Epidemiologie und im Gesundheitswesen - Verwenden von Arithmetik anstelle von logarithmischer Skala, wenn Diagramme relativer Assoziationsmaße (Hazard Ratio, Odds Ratio oder Risk Ratio) angezeigt werden.

Mehr Infos hier .

radek
quelle
5
Ganz
radek
23

Korrelation impliziert Kausalität, was nicht so schlimm ist wie die Annahme der Nullhypothese.

suncoolsu
quelle
aber manchmal ... manchmal haben die möglichen Richtungen der Verursachung höchst unterschiedliche Wahrscheinlichkeiten. Ich werde mit Sicherheit nicht glauben, dass eine Korrelation zwischen Alter und Größe durch die Größe oder eine dazwischen liegende Variable verursacht werden könnte. Ich denke auch, dass dies eine ist, für die das verhaltenswissenschaftliche Training im Allgemeinen sehr sensibel ist.
John
in der Tat, etwas aus der A and B are correlatedRegel nur zu schließen, A causes Baber nicht B causes A... (und vergessen, Cwelche Ursachen Aund B)
Andre Holzner
12
google macht $ 65B pro Jahr egal den Unterschied ...
Neil McGuigan
5
Ich stimme Ihren Punkten zu und sie sind alle gültig. Aber impliziert Googles Gewinn: Korrelation => Kausalität?
Suncoolsu
3
Google verdient das ganze Geld, ohne sich um die Kausalität zu kümmern. In der Tat, warum sollte es? Vorhersage ist das Ding ...
conjugateprior
23

Analyse von Geschwindigkeitsdaten (Genauigkeit usw.) unter Verwendung von ANOVA, wobei angenommen wird, dass die Geschwindigkeitsdaten einen Gaußschen Verteilungsfehler aufweisen, wenn sie tatsächlich binomial verteilt sind. Dixon (2008) bietet eine Diskussion der Folgen dieser Sünde und die Erforschung geeigneterer Analyseansätze.

Mike Lawrence
quelle
4
Um wie viel verringert sich die Leistung der Analyse? Unter welchen Bedingungen ist es am problematischsten? In vielen Fällen wirken sich Abweichungen von den ANOVA-Annahmen nicht wesentlich auf die Ergebnisse aus.
Michael Lew
Welche Alternative bietet das ANOVA-Verfahren?
Henrik
@ Michael Lew & Henrik: Ich aktualisiert gerade diesen Eintrag einen Link zu Dixon aufzunehmen (2008)
Mike Lawrence
2
Kurz gesagt ist es jedoch am problematischsten, wenn die beobachteten Wahrscheinlichkeiten niedrig oder hoch sind, da der Wertebereich eingeschränkt ist und nicht in der Lage ist, die Gaußschen Annahmen zu erfüllen.
Russellpierce
Dies ist nur so schlecht wie die normale Annäherung an das Binomial - sollte in Ordnung sein, vorausgesetzt, jeder Fall wird mit dem Nenner gewichtet, der bei der Berechnung der Rate verwendet wird. Würde erwarten, dass es bei Raten unter 10% und über 90% schlecht abschneidet.
Wahrscheinlichkeitslogik
18

Eine derzeit verbreitete Methode zeichnet 95% -Konfidenzintervalle um die rohen Leistungswerte in Entwürfen für wiederholte Messungen auf, wenn sie sich nur auf die Varianz eines Effekts beziehen. Ein Diagramm der Reaktionszeiten in einem Entwurf mit wiederholten Messungen mit Konfidenzintervallen, in denen der Fehlerterm aus der MSE einer ANOVA mit wiederholten Messungen abgeleitet wird. Diese Konfidenzintervalle repräsentieren nichts Sinnvolles. Sie repräsentieren sicherlich nichts über die absolute Reaktionszeit. Sie können den Fehlerausdruck verwenden, um Konfidenzintervalle für den Effekt zu generieren. Dies wird jedoch nur selten durchgeführt.

John
quelle
Gibt es einen Standardartikel, der die Rezensenten davon abhält, diese allzu alltägliche Praxis zu fordern?
Russellpierce
Die einzige Kritik, die ich kenne, ist Blouin & Riopelle (2005), aber sie bringen die Sache nicht auf den Punkt. Ich bestehe im Allgemeinen nicht darauf, sie nicht anzuzeigen, sondern etwas Korrektes zu tun, wie in den Effektgrafiken von Masson & Loftus (2003, siehe Abbildung 4, rechtes Bedienfeld ... Wenn sie vom linken entfernt worden wären, hätten Sie es richtig gemacht ).
John
Um klar zu sein, das Problem mit diesen CIs ist, dass sie nur aus inferentiellen Gründen in Bezug auf Unterschiede zwischen den Bedingungen verwendet werden und daher sogar schlechter sind als PLSD ... in der Tat bevorzuge ich sie. Zumindest sind sie ehrlich.
John
17

Während ich mich auf vieles beziehen kann, was Michael Lew sagt, übersieht der Verzicht auf p-Werte zugunsten von Likelihood-Verhältnissen immer noch ein allgemeineres Problem: die Überbetonung probabilistischer Ergebnisse gegenüber Effektgrößen, die erforderlich sind, um dem Ergebnis eine substanzielle Bedeutung zu verleihen. Diese Art von Fehler tritt in allen Formen und Größen auf, und ich halte ihn für den heimtückischsten statistischen Fehler. Unter Berufung auf J. Cohen und M. Oakes und andere habe ich unter http://integrativestatistics.com/insidious.htm einen Beitrag dazu verfasst .

rolando2
quelle
3
Mir ist nicht klar, wie mit einem Likelihood-Verhältnis (LR) nicht alles erreicht werden kann, was eine Effektgröße erreicht, während gleichzeitig eine leicht interpretierbare Skala verwendet wird (die Daten enthalten X-mal mehr Beweise für Y als für Z). Eine Effektgröße ist normalerweise nur eine Form des Verhältnisses von erklärter zu unerklärter Variabilität, und (im verschachtelten Fall) ist das LR das Verhältnis der unerklärten Variabilität zwischen einem Modell, das einen Effekt hat, und einem Modell, das keinen hat. Sollte es nicht zumindest eine starke Korrelation zwischen Effektgröße und LR geben, und wenn ja, was geht verloren, wenn Sie zur Likelihood-Ratio-Skala wechseln?
Mike Lawrence
Mike - Sie haben mich interessiert, aber erstrecken sich Ihre Punkte auf Effektgrößen, die so einfach sind wie mittlere Unterschiede zwischen Gruppen? Diese können von Laien leicht interpretiert und mit Vertrauensintervallen versehen werden.
Rolando2
Ah, mit Effektgröße meinen Sie die absolute Effektgröße, einen Wert, der für sich selbst bedeutungslos ist, der aber durch Umwandlung in relative Effektgröße (durch Teilen durch ein gewisses Maß an Variabilität, wie ich bereits erwähnt habe) oder durch Berechnen bedeutungsvoll gemacht werden kann ein Konfidenzintervall für die absolute Effektgröße. Mein Argument oben bezieht sich auf die Vorzüge von LRs gegenüber relativen Effektgrößen. Es kann nützlich sein, Effekt-CIs in Fällen zu berechnen, in denen der tatsächliche Wert des Effekts von Interesse ist (z. B. Vorhersage), aber ich stehe immer noch zum LR als intuitivere Skala, um über Beweise für / gegen Effekte zu sprechen.
Mike Lawrence
Ich vermute, die Verwendung von LRs gegenüber CIs wird wahrscheinlich je nach Kontext variieren, was sinnvollerweise wie folgt zusammengefasst werden kann: Weitere Forschungsphasen in der Wissenschaft, in denen Theorien grob durch das Vorhandensein / Fehlen von Phänomenen charakterisiert sind, bevorzugen möglicherweise LRs, um Beweise zu quantifizieren. Andererseits können CIs in fortgeschritteneren wissenschaftlichen Stadien bevorzugt werden, in denen Theorien ausreichend verfeinert sind, um differenzierte Vorhersagen einschließlich Bereichen erwarteter Effekte zu ermöglichen, oder umgekehrt, wenn verschiedene Bereiche von Effektstärken verschiedene Theorien unterstützen. Schließlich benötigen Vorhersagen, die aus einem Modell generiert wurden, CIs.
Mike Lawrence
0|β|=1|β|>1|β|1β=0β0
15

Die Annahme, dass der Fehler normalverteilt ist und eine konstante Varianz zwischen den Behandlungen aufweist, konnte nicht getestet werden. Diese Annahmen werden nicht immer getestet, daher wird wahrscheinlich häufig eine Modellanpassung nach der Methode der kleinsten Quadrate verwendet, wenn dies tatsächlich unangemessen ist.

Jebyrnes
quelle
11
Was ist an der Schätzung der kleinsten Quadrate unangemessen, wenn die Daten nicht normal oder heteroskedastisch sind? Es ist nicht vollständig effizient, aber dennoch unvoreingenommen und konsistent.
Rob Hyndman
3
Wenn die Daten heteroskedastisch sind, kann die Stichprobenvorhersage sehr ungenau sein, da das Regressionsmodell zu sehr versucht, den Fehler bei Stichproben in Bereichen mit hoher Varianz zu minimieren, und bei Stichproben aus Bereichen mit geringer Varianz nicht stark genug. Dies bedeutet, dass Sie mit einem sehr voreingenommenen Modell enden können. Dies bedeutet auch, dass die Fehlerbalken in den Vorhersagen falsch sind.
Dikran Beuteltier
6
Nein, es ist unvoreingenommen, aber die Varianz ist größer, als wenn Sie aus den von Ihnen erläuterten Gründen eine effizientere Methode angewendet hätten. Ja, die Vorhersageintervalle sind falsch.
Rob Hyndman
4
Ja (ich habe eher eine umgangssprachliche als eine statistische Voreingenommenheit verwendet, um zu bedeuten, dass das Modell systematisch auf Beobachtungen in Regionen mit hoher Varianz des Merkmalsraums ausgerichtet war - mea culpa!) - es wäre genauer zu sagen, dass die höhere Varianz bedeutet Es besteht eine erhöhte Wahrscheinlichkeit, dass ein schlechtes Modell mit einem endlichen Datensatz erstellt wird. Das scheint eine vernünftige Antwort auf Ihre Frage zu sein. Ich sehe Unparteilichkeit nicht wirklich als Trost - wichtig ist, dass das Modell gute Vorhersagen über die tatsächlich vorhandenen Daten liefert und die Varianz oft wichtiger ist.
Dikran Marsupial
14

Mein Intro-Psychometrie-Kurs im Grundstudium dauerte mindestens zwei Wochen, um zu lehren, wie man eine schrittweise Regression durchführt. Gibt es eine Situation, in der schrittweise Regression eine gute Idee ist?

Christopher Aden
quelle
6
"Gute Idee" hängt von der Situation ab. Wenn Sie die Vorhersage maximieren möchten, ist dies keine schreckliche Idee - obwohl dies zu einer Überanpassung führen kann. Es gibt einige seltene Fälle, in denen dies unvermeidlich ist - in denen es keine Theorie gibt, die die Modellauswahl lenkt. Ich würde die schrittweise Regression nicht als "Sünde" betrachten, sondern sie verwenden, wenn die Theorie ausreicht, um die Modellauswahl voranzutreiben.
Russellpierce
20
Vielleicht führt die Sünde statistische Tests an einem Modell durch, das durch schrittweise Regression erhalten wurde.
Rob Hyndman
3
Es ist in Ordnung, wenn Sie eine Kreuzvalidierung verwenden und nicht extrapolieren. Veröffentlichen Sie die p-Werte jedoch nicht, da sie bedeutungslos sind.
Neil McGuigan
Ich arbeite an einem Projekt, das schrittweise Regression verwendet. Der Grund dafür ist, dass ich D >> N habe, wobei D die Dimensionalität und N die Stichprobengröße ist (wodurch ausgeschlossen wird, dass ein Modell mit allen Variablen verwendet wird). Teilmengen der Merkmale sind stark miteinander korreliert. Ich möchte einen statistisch prinzipiellen Weg Ich habe nicht die Absicht, die P-Werte anzugeben, zumindest ohne eine recht konservative Korrektur.
Dsimcha
12

Meine alten Statistiken prof hatten eine "Faustregel" für den Umgang mit Ausreißern: Wenn Sie einen Ausreißer auf Ihrem Streudiagramm sehen, bedecken Sie ihn mit Ihrem Daumen :)

Neil McGuigan
quelle
Dies ist vergleichbar mit Winsorization, was nicht allzu schrecklich ist.
Ari B. Friedman
12

Dies mag eher eine Pop-Statistik-Antwort sein als das, wonach Sie suchen, aber:

Verwenden des Mittelwerts als Indikator für die Position, wenn die Daten stark verdreht sind .

Dies ist nicht unbedingt ein Problem, wenn Sie und Ihr Publikum wissen, wovon Sie sprechen, aber dies ist im Allgemeinen nicht der Fall, und der Median gibt häufig eine bessere Vorstellung davon, was vor sich geht.

Mein Lieblingsbeispiel sind Durchschnittslöhne, die normalerweise als "Durchschnittslöhne" ausgewiesen werden. Abhängig von der Ungleichheit von Einkommen und Vermögen in einem Land kann dies erheblich vom Medianlohn abweichen, der einen viel besseren Indikator dafür liefert, wo sich die Menschen im wirklichen Leben befinden. In Australien beispielsweise, wo wir eine relativ geringe Ungleichheit haben, liegt der Median 10-15% unter dem Mittelwert . In den USA ist der Unterschied viel größer , der Median liegt unter 70% des Mittelwerts und der Abstand nimmt zu.

Die Angabe des "Durchschnittslohns" ergibt ein rosigeres Bild, als es gerechtfertigt ist, und könnte auch einer großen Anzahl von Menschen den falschen Eindruck vermitteln, dass sie nicht so viel verdienen wie "normale" Menschen.

naught101
quelle
Es gibt eine Diskussion darüber, die sich auf die Trendanalyse bezieht: tamino.wordpress.com/2012/03/29/…
naught101
2
Dies hängt nicht nur mit der Schiefe zusammen, sondern ist ein allgemeines Problem, bei dem der Mittelwert oder ein anderes Maß für die zentrale Tendenz ohne Berücksichtigung der Streuung nicht ausreicht. Zum Beispiel, wenn die Mediane von zwei Gruppen gleich waren, aber der Bereich zwischen den Quartilen für eine Population 100-mal so groß war. Betrachtet man nur den Median, würde man sagen, dass sie die gleiche Bevölkerungsverteilung haben, obwohl sie in Wirklichkeit sehr unterschiedlich sind. Nicht zu vergessen, dass mehrere Modi Probleme verursachen ...
Wahrscheinlichkeitsanalyse
Für einige Zwecke ist der Mittelwert jedoch relevant: Der Lohn ist eine umfangreiche Variable, was bedeutet, dass Lohnsummen sinnvoll sind. Bei Fragen, bei denen das Gesamtlohneinkommen einer (Teil-) Gruppe relevant ist, sind die Mittelwerte richtig: Die Summe kann aus dem Mittelwert und nicht aus dem Median errechnet werden.
kjetil b halvorsen
@kjetilbhalvorsen: Warum nicht einfach die Summe dann verwenden?
Naught101
n
10

Dass der p-Wert die Wahrscheinlichkeit ist, dass die Nullhypothese wahr ist und (1-p) die Wahrscheinlichkeit ist, dass die Alternativhypothese wahr ist. Wenn die Nullhypothese nicht verworfen wird, ist die Alternativhypothese falsch usw.

Dikran Beuteltier
quelle
1
1
Interessant, können Sie mir einen Hinweis geben, um darüber nachzulesen?
Dikran Beuteltier
2
(here you go) [ ece.uvic.ca/~bctill/papers/mocap/Aitkin_1997.pdf] Ich persönlich finde es zwar interessant, kämpfe aber mit der Frage, warum die hintere Verteilung des Wahrscheinlichkeitsverhältnisses die Menge von ist Interesse.
Wahrscheinlichkeitslogik
10

In ähnlicher Weise wie @dirkan - Die Verwendung von p-Werten als formales Maß für den Beweis, dass die Nullhypothese wahr ist. Es weist einige gute heuristische und intuitiv gute Merkmale auf, ist jedoch im Wesentlichen ein unvollständiges Maß für die Evidenz, da es keinen Hinweis auf die alternative Hypothese gibt. Während es unwahrscheinlich ist, dass die Daten unter der Null liegen (was zu einem kleinen p-Wert führt), sind die Daten unter der alternativen Hypothese möglicherweise noch unwahrscheinlicher .

Wahrscheinlichkeitslogik
quelle
Ich antworte nicht, weil ich mir nicht die Mühe machen möchte, mir einen auszudenken und im Übrigen all die bereits gegebenen durchzuarbeiten, um sicherzustellen, dass ich keinen wiederhole! Aber ich denke, ich kann hilfreich sein. Es gibt ein Buch von Good und Hardin mit dem Titel "Häufige Fehler in der Statistik und wie man sie vermeidet". Sie können dort viele großartige Beispiele finden. Es ist ein populäres Buch, das bereits in der vierten Auflage erscheint.
Michael Chernick
Auch Altmans Buch mit Chapman & Hall / CRC "Practical Statistics in Medical Research" enthält ein Kapitel über die medizinische Literatur, in dem viele statistische Sünden aufgedeckt werden, die in veröffentlichten Veröffentlichungen vorkommen.
Michael Chernick
9

Verwenden von Kreisdiagrammen zur Veranschaulichung der relativen Häufigkeiten. Mehr hier .

Andrej
quelle
2
Wäre gut, einige Überlegungen vor Ort aufzunehmen.
Naught101
9

Verwendung von Statistiken / Wahrscheinlichkeiten beim Testen von Hypothesen zur Messung der "absoluten Wahrheit". Statistiken können dies einfach nicht, sie können nur bei der Entscheidung zwischen Alternativen von Nutzen sein, die von "außerhalb" des statistischen Paradigmas angegeben werden müssen. Aussagen wie "die Nullhypothese wird durch die Statistik als wahr erwiesen" sind einfach falsch; Statistiken können nur sagen, "die Nullhypothese wird von den Daten im Vergleich zur Alternativhypothese favorisiert". Wenn Sie dann annehmen, dass entweder die Nullhypothese oder die Alternative wahr sein muss, können Sie "die Null hat sich als wahr erwiesen" sagen, aber dies ist nur eine unbedeutende Konsequenz Ihrer Annahme, und nichts, was durch die Daten bewiesen wird.

Wahrscheinlichkeitslogik
quelle
9

α=0.05

Und ähnlich (oder fast genauso wie) @ ogrisels Antwort , bei der eine Rastersuche durchgeführt und nur das beste Ergebnis gemeldet wird.

Andrew
quelle
Ich denke, du wolltest auf einen anderen Comic verlinken, obwohl das ein unsterblicher ist.
Rolando2
Wenn ich mich recht gut an das erinnere, was ich damals im Sinn hatte: xkcd.com/882
Andrew
8

(Mit etwas Glück wird dies kontrovers diskutiert.)

Verwendung eines Neyman-Pearson-Ansatzes zur statistischen Analyse wissenschaftlicher Experimente. Oder schlimmer noch, mit einem schlecht definierten Hybrid aus Neyman-Pearson und Fisher.

Michael Lew
quelle
Es tut mir leid, dass ich ignorant bin, aber was ist falsch an einer Neyman-Pearson-Konstruktion für die Analyse (des Ergebnisses) wissenschaftlicher Experimente?
Andre Holzner
@Andre Ich denke, diese Bemerkung könnte eng mit einer anderen verwandt sein, die von @Michael Lew an anderer Stelle in diesem Thread angeboten wird ( stats.stackexchange.com/questions/4551/… ).
whuber
8

Beantragung, und vielleicht zu erhalten Das Flussdiagramm : Die grafische Ding , wo Sie sagen , was das Niveau Ihrer Variablen sind und welche Art von Beziehung , die Sie suchen, und folgen Sie den Pfeilen nach unten einen Markenname - Test oder einen Markennamen Statistik zu erhalten . Manchmal mit mysteriösen "parametrischen" und "nicht parametrischen" Pfaden angeboten.

Conjugateprior
quelle