Es gibt eine bestimmte Denkrichtung, nach der der am weitesten verbreitete Ansatz für statistische Tests ein "Hybrid" zwischen zwei Ansätzen ist: dem von Fisher und dem von Neyman-Pearson; Diese beiden Ansätze seien "inkompatibel", und daher sei der resultierende "Hybrid" ein "inkohärenter Mischmasch". Ich werde im Folgenden eine Bibliographie und einige Zitate zur Verfügung stellen, aber im Moment genügt es zu sagen, dass im Wikipedia-Artikel über statistische Hypothesentests viel darüber geschrieben wurde . Hier im Lebenslauf wurde dieser Punkt wiederholt von @Michael Lew angesprochen (siehe hier und hier ).
Meine Frage lautet: Warum wird behauptet, dass F- und NP-Ansätze nicht kompatibel sind, und warum wird behauptet, dass der Hybrid inkohärent ist? Beachten Sie, dass ich mindestens sechs Anti-Hybrid-Artikel gelesen habe (siehe unten), aber das Problem oder das Argument immer noch nicht verstehe. Beachten Sie auch, dass ich nicht vorschlage zu diskutieren, ob F oder NP ein besserer Ansatz ist; Ich biete auch nicht an, häufig auftretende oder bayesianische Rahmenbedingungen zu diskutieren. Stattdessen lautet die Frage: Akzeptiert man, dass sowohl F als auch NP gültige und bedeutungsvolle Ansätze sind, was ist so schlecht an ihrem Hybrid?
So verstehe ich die Situation. Fischers Ansatz besteht darin, den Wert zu berechnen und ihn als Beweis gegen die Nullhypothese heranzuziehen. Je kleiner das p ist , desto überzeugender sind die Beweise. Der Forscher soll diese Evidenz mit seinem Hintergrundwissen kombinieren, entscheiden, ob es überzeugend genug ist , und entsprechend vorgehen. (Beachten Sie, dass sich Fischers Ansichten im Laufe der Jahre geändert haben, aber dazu scheint er letztendlich konvergiert zu haben.) Im Gegensatz dazu besteht der Neyman-Pearson-Ansatz darin, α im Voraus zu wählen und dann zu prüfen, ob p ≤ α ist; Wenn ja, nennen Sie es signifikant und lehnen Sie die Nullhypothese ab (hier lasse ich einen großen Teil der NP-Geschichte aus, der für die aktuelle Diskussion nicht relevant ist). Siehe auch eine ausgezeichnete Antwort von @gung in Wann wird das Fisher- und Neyman-Pearson-Framework verwendet?
Der hybride Ansatz besteht darin, den Wert zu berechnen , ihn zu melden (implizit unter der Annahme, dass je kleiner desto besser) und die Ergebnisse auch als signifikant zu bezeichnen, wenn p ≤ α (normalerweise α = 0,05 ) und ansonsten nicht signifikant. Dies soll inkohärent sein. Wie kann es ungültig sein, zwei gültige Dinge gleichzeitig zu tun?
Als besonders inkohärent betrachten die Anti-Hybridisten die weit verbreitete Praxis, Werte als p < 0,05 , p < 0,01 oder p < 0,001 (oder sogar p ≤ 0,0001 ) zu melden , wobei immer die stärkste Ungleichung gewählt wird. Das Argument scheint zu sein, dass (a) die Beweiskraft nicht richtig eingeschätzt werden kann, da das genaue p nicht angegeben wird, und (b) die rechte Zahl in der Ungleichung tendenziell als α interpretiert und als Fehlerrate des Typs I betrachtet wird und das ist falsch. Ich sehe hier kein großes Problem. Erstens, genau p meldensicherlich eine bessere Praxis ist, aber niemand kümmert sich wirklich , wenn ist zB 0,02 oder 0,03 , so dass es auf einer logarithmischen Skala Rundung ist nicht soooo schlecht (und gehen unter ~ 0,0001 macht keinen Sinn sowieso machen, siehe Wie sollte winzige p-Werte gemeldet werden ? ). Zweitens ist, wenn der Konsens alles unter 0,05 als signifikant bezeichnet, die Fehlerrate α = 0,05 und p ≠ α , wie @gung in der Interpretation des p-Werts beim Testen von Hypothesen erläutert. Auch wenn dies möglicherweise ein verwirrendes Problem ist, erscheint es mir nicht verwirrender als andere Probleme bei statistischen Tests (außerhalb des Hybrids). Außerdem kann jeder Leser beim Lesen einer Hybridarbeit sein eigenes Lieblings- und damit auch seine eigene Fehlerquote berücksichtigen. Also, was ist die große Sache?
Einer der Gründe, warum ich diese Frage stellen möchte, ist, dass es wörtlich weh tut, zu sehen, wie viel des Wikipedia-Artikels über das Testen statistischer Hypothesen dem Lambasting-Hybrid gewidmet ist. Nach Halpin & Stam wird behauptet, ein gewisser Lindquist sei schuld (es gibt sogar einen großen Scan seines Lehrbuchs mit gelb hervorgehobenen "Fehlern"), und natürlich beginnt der Wiki-Artikel über Lindquist selbst mit der gleichen Anschuldigung. Aber dann fehlt mir vielleicht etwas.
Verweise
Gigerenzer, 1993, Das Über-Ich, das Ego und das Es im statistischen Denken - führte den Begriff "Hybrid" ein und nannte ihn "inkohärentes Mischmasch"
- Siehe auch neuere Ausführungen von Gigerenzer et al .: zB Mindless Statistics (2004) und The Null Ritual. Was Sie schon immer über Signifikanztests wissen wollten, aber keine Angst hatten zu fragen (2004).
Cohen, 1994, The Earth Is Round ( ) - eine sehr populäre Zeitung mit fast 3.000 Zitaten, die sich hauptsächlich mit verschiedenen Themen befasst, aber Gigerenzer positiv zitiert
Goodman, 1999, Hin zu evidenzbasierter medizinischer Statistik. 1: Der P-Wert-Irrtum
Hubbard & Bayarri, 2003, Verwirrung über Evidenzmaße ( p 's) gegenüber Fehlern ( α ' s) bei klassischen statistischen Tests - eine der beredteren Arbeiten, die gegen "Hybrid" argumentieren
Halpin & Stam, 2006, Induktive Folgerung oder induktives Verhalten: Fisher und Neyman-Pearson-Ansätze zu statistischen Tests in der psychologischen Forschung (1940-1960) [nach Registrierung kostenlos] - wirft Lindquists Lehrbuch von 1940 die Einführung des "hybriden" Ansatzes vor
@Michael Lew, 2006, Schlechte statistische Praxis in der Pharmakologie (und anderen biomedizinischen Grunddisziplinen): Sie kennen P wahrscheinlich nicht - eine schöne Übersicht und ein guter Überblick
Zitate
Gigerenzer: Was in der Psychologie als Inferenzstatistik institutionalisiert wurde, ist nicht die Fischerstatistik. Es ist eine inkohärente Mischung aus einigen von Fischers Ideen einerseits und einigen von Neyman und ES Pearson andererseits. Ich bezeichne diese Mischung als "hybride Logik" der statistischen Folgerung.
Goodman: Der [Neyman-Pearson] -Hypothesentestansatz bot Wissenschaftlern ein Faust-Geschäft - eine scheinbar automatische Möglichkeit, die Anzahl der falschen Schlussfolgerungen auf lange Sicht zu begrenzen, aber nur durch den Verzicht auf die Fähigkeit, Beweise zu messen und zu bewerten Wahrheit aus einem einzigen Experiment.
Hubbard & Bayarri: Das klassische statistische Testen ist eine anonyme Mischung aus konkurrierenden und häufig widersprüchlichen Ansätzen [...]. Insbesondere gibt es ein weit verbreitetes Versäumnis, die Inkompatibilität von Fischers Beweis- Wert mit der Typ I-Fehlerrate & agr ; der statistischen Orthodoxie von Neyman-Pearson zu schätzen . [...] Als ein Paradebeispiel für die Verwirrung, die durch [...] dieses Mischen entsteht, betrachten Sie die weithin unbeachtete Tatsache, dass der p- Wert des ersteren inkompatibel istmit dem Neyman-Pearson-Hypothesentest, in den es eingebettet wurde. Zum Beispiel haben Gibbons und Pratt [...] fälschlicherweise angegeben: "Die Angabe eines P-Wertes, ob genau oder innerhalb eines Intervalls, erlaubt es praktisch jedem Individuum, sein eigenes Signifikanzniveau als maximal tolerierbare Wahrscheinlichkeit zu wählen eines Fehlers vom Typ I. "
Halpin & Stam: Lindquists Text von 1940 war eine ursprüngliche Quelle für die Hybridisierung der Ansätze von Fisher und Neyman-Pearson. Anstatt sich an eine bestimmte Interpretation statistischer Tests zu halten, sind sich die Psychologen der konzeptionellen Schwierigkeiten, die die Kontroverse zwischen Fisher und Neyman-Pearson mit sich bringt, ambivalent geblieben.
Lew: Was wir haben, ist ein hybrider Ansatz, der weder die Fehlerraten kontrolliert noch eine Bewertung der Beweiskraft ermöglicht.
quelle
Antworten:
Ich bin davon überzeugt, dass die von Ihnen sorgfältig gesammelten Papiere, Artikel, Beiträge usw. genügend Informationen und Analysen darüber enthalten, wo und warum sich die beiden Ansätze unterscheiden. Aber als andere bedeutet nicht , ist unvereinbar .
Das Problem mit der „Hybrid“ ist , dass es eine Hybrid ist und nicht eine Synthese , und deshalb ist es von vielen als behandelt wird hybris , wenn Sie das Wortspiel entschuldigen.
Da es sich nicht um eine Synthese handelt, wird nicht versucht, die Unterschiede der beiden Ansätze zu kombinieren und entweder einen einheitlichen und in sich konsistenten Ansatz zu schaffen oder beide Ansätze als ergänzende Alternativen im wissenschaftlichen Arsenal zu belassen, um die sehr komplexen Zusammenhänge wirksamer zu bewältigen Welt, die wir versuchen, durch Statistik zu analysieren (zum Glück scheint diese letzte Sache mit dem anderen großen Bürgerkrieg des Feldes, dem frequentistisch-bayesianischen, zu geschehen).
Die Unzufriedenheit damit ist meines Erachtens darauf zurückzuführen, dass es in der Tat zu Missverständnissen bei der Anwendung der statistischen Instrumente und der Interpretation der statistischen Ergebnisse gekommen ist , hauptsächlich durch Wissenschaftler, die keine Statistiker sind , Missverständnisse, die möglicherweise sehr schwerwiegende und schädliche Auswirkungen haben können (wenn man über das Gebiet nachdenkt) der Medizin hilft dabei, dem Thema einen angemessenen dramatischen Ton zu geben). Ich glaube, dass diese Fehlanwendung weithin als Tatsache akzeptiert wurde - und in diesem Sinne kann der Standpunkt des "Anti-Hybrids" als weit verbreitet angesehen werden (zumindest aufgrund der Konsequenzen, die er hatte, wenn nicht aufgrund seiner methodologischen Probleme).
Der Hybrid entstand, glaube ich, aus der Erkenntnis, dass es keine so einfache Antwort gab und dass es reale Phänomene gab, für die der eine Ansatz besser geeignet ist als der andere (siehe diesen Beitrag für ein solches Beispiel, so wie ich es unter zumindest, wenn der Ansatz der Fischer angemessener erscheint). Aber anstatt die beiden "getrennt und handlungsbereit" zu halten, wurden sie ziemlich überflüssig zusammengeflickt.
Ich biete eine Quelle an, die diesen "komplementären alternativen" Ansatz zusammenfasst: Spanos, A. (1999). Wahrscheinlichkeitstheorie und statistische Inferenz: ökonometrische Modellierung mit Beobachtungsdaten. Cambridge University Press. , Ch. 14 , insbesondere Abschnitt 14.5, in dem der Autor nach einer formellen und eindeutigen Darstellung der beiden Ansätze in der Lage ist, deutlich auf ihre Unterschiede hinzuweisen und auch zu argumentieren, dass sie als ergänzende Alternativen angesehen werden können.
quelle
Meine eigene Meinung zu meiner Frage ist, dass der hybride (dh akzeptierte) Ansatz nicht besonders inkohärent ist. Da ich mir jedoch nicht sicher war, ob ich die Gültigkeit der in den Anti-Hybrid-Papieren vorgebrachten Argumente möglicherweise nicht nachvollziehen kann, war ich froh, dass die Diskussion zusammen mit diesem Papier veröffentlicht wurde:
Leider wurden zwei als Diskussion veröffentlichte Antworten nicht als separate Artikel formatiert und können daher nicht richtig zitiert werden. Dennoch möchte ich aus beiden zitieren:
Beide Antworten sind sehr lesenswert. Es gibt auch eine Entgegnung von den Original - Autoren, die nicht überzeugend zu mir klingen überhaupt .
quelle
Ich befürchte, dass eine echte Antwort auf diese ausgezeichnete Frage ein ausführliches Papier erfordern würde. Hier sind jedoch einige Punkte aufgeführt, die weder in der Frage noch in den aktuellen Antworten enthalten sind.
Die Fehlerrate "gehört" zum Verfahren, aber der Beweis "gehört" zu den experimentellen Ergebnissen. Somit ist es bei mehrstufigen Verfahren mit sequentiellen Stoppregeln möglich, ein Ergebnis mit sehr starker Evidenz gegen die Nullhypothese, aber einem nicht signifikanten Hypothesentestergebnis zu erhalten. Das kann man sich als starke Inkompatibilität vorstellen.
Wenn Sie an Inkompatibilitäten interessiert sind, sollten Sie sich für die zugrunde liegenden Philosophien interessieren. Die philosophische Schwierigkeit ergibt sich aus der Wahl zwischen der Einhaltung des Likelihood-Prinzips und der Einhaltung des Repeated Sampling-Prinzips. Die LP besagt ungefähr, dass bei einem statistischen Modell der Nachweis in einem Datensatz, der für den interessierenden Parameter relevant ist, vollständig in der relevanten Wahrscheinlichkeitsfunktion enthalten ist. Der RSP sagt, dass man Tests vorziehen sollte, die auf lange Sicht Fehlerraten ergeben, die ihren Nennwerten entsprechen.
quelle
Eine oft gesehene (und angeblich akzeptierte) Verbindung (oder besser: "Hybrid") zwischen den beiden Ansätzen ist wie folgt:
Wenn der p-Wert nicht klein genug ist, würden Sie sagen
Aspekte von Neyman-Pearson sind hier:
Fischeraspekte sind:
ERWEITERUNG
Während es gut ist, sich der Diskussion über die philosophischen Probleme von Fisher, NP oder dieses hybriden Ansatzes bewusst zu sein (wie von manchen in fast religiöser Raserei gelehrt), gibt es in der Statistik viel relevantere Themen, gegen die man kämpfen muss:
quelle
Kurze Antwort: Die Verwendung einer Nullhypothese (kein Unterschied, keine Korrelation), unabhängig vom Kontext. Alles andere ist ein "Missbrauch" von Menschen, die sich Mythen darüber gemacht haben, was der Prozess bewirken kann. Die Mythen rühren von Menschen her, die versuchen, ihren (manchmal angemessenen) Einsatz von Vertrauen in Autoritäts- und Konsensheuristiken mit der Unanwendbarkeit des Verfahrens auf ihr Problem in Einklang zu bringen.
Soweit ich weiß, hat sich Gerd Gigerenzer den Begriff "Hybrid" ausgedacht:
Gigerenzer, G. (November 2004). " Gedankenlose Statistik ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.
Bearbeiten: Und wir sollten immer erwähnen, weil der "Hybrid" so rutschig und schlecht definiert ist, dass die Verwendung der Null-Null zum Ermitteln eines p-Werts vollkommen in Ordnung ist, um die Effektgrößen bei unterschiedlichen Stichprobengrößen zu vergleichen. Es ist der "Test" -Aspekt, der das Problem einführt.
Edit 2: @amoeba Ein p-Wert kann als zusammenfassende Statistik in Ordnung sein. In diesem Fall ist die Nullhypothese nur ein beliebiger Orientierungspunkt: http://arxiv.org/abs/1311.0081 . Sobald Sie jedoch versuchen, eine Schlussfolgerung zu ziehen oder eine Entscheidung zu treffen (dh die Nullhypothese zu "testen"), ist dies nicht mehr sinnvoll. Im Beispiel des Vergleichs zweier Gruppen möchten wir wissen, wie unterschiedlich zwei Gruppen sind und welche unterschiedlichen Erklärungen für Unterschiede dieser Größenordnung und Art möglich sind.
Der p-Wert kann als zusammenfassende Statistik verwendet werden, aus der die Größe der Differenz hervorgeht. Es zu verwenden, um die Nulldifferenz zu "widerlegen / zurückzuweisen", hat jedoch keinen Zweck, den ich erkennen kann. Ich denke auch, dass viele dieser Studiendesigns, die durchschnittliche Messungen von Lebewesen zu einem einzelnen Zeitpunkt vergleichen, falsch sind. Wir sollten beobachten wollen, wie sich einzelne Instanzen des Systems im Laufe der Zeit ändern, und dann einen Prozess entwickeln, der das beobachtete Muster erklärt (einschließlich aller Gruppenunterschiede).
quelle
Ich sehe, dass diejenigen mit mehr Fachwissen als ich Antworten geliefert haben, aber ich denke, dass meine Antwort das Potenzial hat, etwas Zusätzliches hinzuzufügen, deshalb werde ich dies als die Perspektive eines anderen Laien anbieten.
Ist der hybride Ansatz inkohärent? Ich würde sagen, es hängt davon ab, ob der Forscher mit den Regeln, mit denen er begonnen hat, inkonsistent handelt oder nicht: speziell mit der Ja / Nein-Regel, die bei der Festlegung eines Alpha-Werts zum Tragen kommt.
Inkohärent
Beginnen Sie mit Neyman-Pearson. Der Forscher setzt alpha = 0,05, führt das Experiment aus und berechnet p = 0,052. Der Forscher untersucht diesen p-Wert und betrachtet das Ergebnis unter Verwendung der Fisher-Inferenz (oft implizit) als ausreichend inkompatibel mit der Testhypothese, dass immer noch behauptet wird, dass "etwas" vor sich geht. Das Ergebnis ist irgendwie "gut genug", obwohl der p-Wert größer als der Alpha-Wert war. Oft wird dies mit einer Sprache wie "fast signifikant" oder "tendenziell signifikant" oder einer Formulierung in dieser Richtung gepaart.
Das Einstellen eines Alpha-Werts vor dem Ausführen des Experiments bedeutet jedoch, dass der Ansatz des induktiven Verhaltens von Neyman-Pearson gewählt wurde. Die Entscheidung, diesen Alpha-Wert nach der Berechnung des p-Werts zu ignorieren und damit zu behaupten, dass etwas immer noch interessant ist, untergräbt den gesamten Ansatz, mit dem man begonnen hat. Wenn ein Forscher den Pfad A (Neyman-Pearson) herunterfährt und dann zu einem anderen Pfad (Fisher) springt, wenn er den Pfad, auf dem er sich befindet, nicht mag, halte ich das für inkohärent. Sie stimmen nicht mit den (implizierten) Regeln überein, mit denen sie begonnen haben.
Kohärent (möglicherweise)
Beginnen Sie mit NP. Der Forscher setzt alpha = 0,05, führt das Experiment aus und berechnet p = 0,0014. Der Forscher beobachtet, dass p <alpha ist, und lehnt daher die Testhypothese ab (normalerweise kein Effekt null) und akzeptiert die alternative Hypothese (der Effekt ist real). An diesem Punkt entscheidet der Forscher zusätzlich zu seiner Entscheidung, das Ergebnis als realen Effekt (NP) zu behandeln, daraus (Fisher), dass das Experiment sehr starke Beweise dafür liefert, dass der Effekt real ist. Sie haben dem Ansatz, mit dem sie begonnen haben, eine Nuance verliehen, haben aber den geltenden Regeln nicht widersprochen, indem sie zu Beginn einen Alpha-Wert gewählt haben.
Zusammenfassung
Wenn man mit der Auswahl eines Alpha-Werts beginnt, hat man sich entschieden, den Neyman-Pearson-Pfad zu wählen und die Regeln für diesen Ansatz zu befolgen. Wenn sie irgendwann gegen diese Regeln verstoßen, indem sie fischerische Schlussfolgerungen als Rechtfertigung heranziehen, haben sie inkonsistent / inkohärent gehandelt.
Ich nehme an, man könnte noch einen Schritt weiter gehen und erklären, dass der Ansatz inkohärent ist, weil es möglich ist , den Hybrid inkohärent zu verwenden, aber er scheint tiefer in die philosophischen Aspekte einzudringen, für die ich mich nicht einmal qualifiziert sehe eine Stellungnahme abgeben zu.
Hutspitze zu Michael Lew. Sein Artikel von 2006 hat mir geholfen, diese Themen besser zu verstehen als jede andere Ressource.
quelle