Ist der "Hybrid" zwischen Fisher und Neyman-Pearson bei statistischen Tests wirklich ein "inkohärenter Mischmasch"?

56

Es gibt eine bestimmte Denkrichtung, nach der der am weitesten verbreitete Ansatz für statistische Tests ein "Hybrid" zwischen zwei Ansätzen ist: dem von Fisher und dem von Neyman-Pearson; Diese beiden Ansätze seien "inkompatibel", und daher sei der resultierende "Hybrid" ein "inkohärenter Mischmasch". Ich werde im Folgenden eine Bibliographie und einige Zitate zur Verfügung stellen, aber im Moment genügt es zu sagen, dass im Wikipedia-Artikel über statistische Hypothesentests viel darüber geschrieben wurde . Hier im Lebenslauf wurde dieser Punkt wiederholt von @Michael Lew angesprochen (siehe hier und hier ).

Meine Frage lautet: Warum wird behauptet, dass F- und NP-Ansätze nicht kompatibel sind, und warum wird behauptet, dass der Hybrid inkohärent ist? Beachten Sie, dass ich mindestens sechs Anti-Hybrid-Artikel gelesen habe (siehe unten), aber das Problem oder das Argument immer noch nicht verstehe. Beachten Sie auch, dass ich nicht vorschlage zu diskutieren, ob F oder NP ein besserer Ansatz ist; Ich biete auch nicht an, häufig auftretende oder bayesianische Rahmenbedingungen zu diskutieren. Stattdessen lautet die Frage: Akzeptiert man, dass sowohl F als auch NP gültige und bedeutungsvolle Ansätze sind, was ist so schlecht an ihrem Hybrid?


So verstehe ich die Situation. Fischers Ansatz besteht darin, den Wert zu berechnen und ihn als Beweis gegen die Nullhypothese heranzuziehen. Je kleiner das p ist , desto überzeugender sind die Beweise. Der Forscher soll diese Evidenz mit seinem Hintergrundwissen kombinieren, entscheiden, ob es überzeugend genug ist , und entsprechend vorgehen. (Beachten Sie, dass sich Fischers Ansichten im Laufe der Jahre geändert haben, aber dazu scheint er letztendlich konvergiert zu haben.) Im Gegensatz dazu besteht der Neyman-Pearson-Ansatz darin, α im Voraus zu wählen und dann zu prüfen, ob p α istppαpα; Wenn ja, nennen Sie es signifikant und lehnen Sie die Nullhypothese ab (hier lasse ich einen großen Teil der NP-Geschichte aus, der für die aktuelle Diskussion nicht relevant ist). Siehe auch eine ausgezeichnete Antwort von @gung in Wann wird das Fisher- und Neyman-Pearson-Framework verwendet?

Der hybride Ansatz besteht darin, den Wert zu berechnen , ihn zu melden (implizit unter der Annahme, dass je kleiner desto besser) und die Ergebnisse auch als signifikant zu bezeichnen, wenn p α (normalerweise α = 0,05 ) und ansonsten nicht signifikant. Dies soll inkohärent sein. Wie kann es ungültig sein, zwei gültige Dinge gleichzeitig zu tun?ppαα=0.05

Als besonders inkohärent betrachten die Anti-Hybridisten die weit verbreitete Praxis, Werte als p < 0,05 , p < 0,01 oder p < 0,001 (oder sogar p 0,0001 ) zu melden , wobei immer die stärkste Ungleichung gewählt wird. Das Argument scheint zu sein, dass (a) die Beweiskraft nicht richtig eingeschätzt werden kann, da das genaue p nicht angegeben wird, und (b) die rechte Zahl in der Ungleichung tendenziell als α interpretiert und als Fehlerrate des Typs I betrachtet wird und das ist falsch. Ich sehe hier kein großes Problem. Erstens, genau p meldenpp<0.05p<0.01p<0.001p0.0001pαpsicherlich eine bessere Praxis ist, aber niemand kümmert sich wirklich , wenn ist zB 0,02 oder 0,03 , so dass es auf einer logarithmischen Skala Rundung ist nicht soooo schlecht (und gehen unter ~ 0,0001 macht keinen Sinn sowieso machen, siehe Wie sollte winzige p-Werte gemeldet werden ? ). Zweitens ist, wenn der Konsens alles unter 0,05 als signifikant bezeichnet, die Fehlerrate α = 0,05 und p α , wie @gung in der Interpretation des p-Werts beim Testen von Hypothesen erläutertp0.020.030.00010.05α=0.05pα. Auch wenn dies möglicherweise ein verwirrendes Problem ist, erscheint es mir nicht verwirrender als andere Probleme bei statistischen Tests (außerhalb des Hybrids). Außerdem kann jeder Leser beim Lesen einer Hybridarbeit sein eigenes Lieblings- und damit auch seine eigene Fehlerquote berücksichtigen. Also, was ist die große Sache?α

Einer der Gründe, warum ich diese Frage stellen möchte, ist, dass es wörtlich weh tut, zu sehen, wie viel des Wikipedia-Artikels über das Testen statistischer Hypothesen dem Lambasting-Hybrid gewidmet ist. Nach Halpin & Stam wird behauptet, ein gewisser Lindquist sei schuld (es gibt sogar einen großen Scan seines Lehrbuchs mit gelb hervorgehobenen "Fehlern"), und natürlich beginnt der Wiki-Artikel über Lindquist selbst mit der gleichen Anschuldigung. Aber dann fehlt mir vielleicht etwas.


Verweise

Zitate

Gigerenzer: Was in der Psychologie als Inferenzstatistik institutionalisiert wurde, ist nicht die Fischerstatistik. Es ist eine inkohärente Mischung aus einigen von Fischers Ideen einerseits und einigen von Neyman und ES Pearson andererseits. Ich bezeichne diese Mischung als "hybride Logik" der statistischen Folgerung.

Goodman: Der [Neyman-Pearson] -Hypothesentestansatz bot Wissenschaftlern ein Faust-Geschäft - eine scheinbar automatische Möglichkeit, die Anzahl der falschen Schlussfolgerungen auf lange Sicht zu begrenzen, aber nur durch den Verzicht auf die Fähigkeit, Beweise zu messen und zu bewerten Wahrheit aus einem einzigen Experiment.

Hubbard & Bayarri: Das klassische statistische Testen ist eine anonyme Mischung aus konkurrierenden und häufig widersprüchlichen Ansätzen [...]. Insbesondere gibt es ein weit verbreitetes Versäumnis, die Inkompatibilität von Fischers Beweis- Wert mit der Typ I-Fehlerrate & agr ; der statistischen Orthodoxie von Neyman-Pearson zu schätzen . [...] Als ein Paradebeispiel für die Verwirrung, die durch [...] dieses Mischen entsteht, betrachten Sie die weithin unbeachtete Tatsache, dass der p- Wert des ersteren inkompatibel istpαpmit dem Neyman-Pearson-Hypothesentest, in den es eingebettet wurde. Zum Beispiel haben Gibbons und Pratt [...] fälschlicherweise angegeben: "Die Angabe eines P-Wertes, ob genau oder innerhalb eines Intervalls, erlaubt es praktisch jedem Individuum, sein eigenes Signifikanzniveau als maximal tolerierbare Wahrscheinlichkeit zu wählen eines Fehlers vom Typ I. "

Halpin & Stam: Lindquists Text von 1940 war eine ursprüngliche Quelle für die Hybridisierung der Ansätze von Fisher und Neyman-Pearson. Anstatt sich an eine bestimmte Interpretation statistischer Tests zu halten, sind sich die Psychologen der konzeptionellen Schwierigkeiten, die die Kontroverse zwischen Fisher und Neyman-Pearson mit sich bringt, ambivalent geblieben.

Lew: Was wir haben, ist ein hybrider Ansatz, der weder die Fehlerraten kontrolliert noch eine Bewertung der Beweiskraft ermöglicht.

Amöbe sagt Reinstate Monica
quelle
+1 für diese gut recherchierte (auch wenn lange) Frage. Es würde mir helfen, vielleicht weiter zu spezifizieren, was genau verwirrend ist. Ist es genug zu wissen, dass es für Fisher überhaupt keine alternative Hypothese gibt, während für NP die Welt der Möglichkeiten sowohl mit Null als auch mit Alternative erschöpft ist? Scheint mir inkohärent genug, aber leider mache ich die ganze Zeit das hybride Ding, weil du es nicht vermeiden kannst, so tief verwurzelt ist es geworden.
Momo
2
@Momo: zu deiner Frage "Was genau ist verwirrend" - nun, verwirrend ist die Raserei der Anti-Hybrid-Rhetorik. "Incoherent Mishmash" sind starke Worte, daher würde ich mir eine ziemlich schlechte Inkonsistenz wünschen. Was Sie über alternative Hypothese klingt nicht als solche zu mir (im Garten Vielfalt Fall von die Alternative ist offensichtlich H 1 : μ & ne; 0 , und ich weiß nicht viel Raum für Inkonsistenz sehen), aber Wenn ich Ihren Punkt verfehle, möchten Sie ihn vielleicht als Antwort geben. H0:μ=0H1:μ0
Amöbe sagt Reinstate Monica
2
Nachdem ich gerade Lew gelesen hatte (und mir klar wurde, dass ich es wahrscheinlich um 2006 gelesen hatte), fand ich es ziemlich gut, aber ich glaube nicht, dass es die Verwendung von p-Werten widerspiegelt. Meine Signifikanzniveaus - in den seltenen Fällen, in denen ich überhaupt Hypothesentests verwende * - stehen immer im Vordergrund, und wenn ich die Stichprobengröße unter Berücksichtigung der Leistung, der Kosten der beiden Fehlertypen usw. steuern kann - im Wesentlichen Neyman-Pearson. Ich zitiere immer noch p-Werte, aber nicht im Rahmen von Fischers Ansatz ... (ctd)
Glen_b
2
(ctd). Das spezifische Problem, das Lew für das "Hybrid" -Verfahren aufgeworfen hat, trifft auf etwas zu, das ich nicht tue, und würde die Leute eher davor warnen, etwas zu tun. Wenn es Leute gibt, die wirklich den von ihm implizierten Mix von Ansätzen machen, scheint das Papier in Ordnung zu sein. Die frühere Diskussion der Bedeutung von p-Werten und der Vorgeschichte der Ansätze scheint ausgezeichnet.
Glen_b
1
@ Glen_b, Lews historischer Überblick ist sehr schön und klar, da stimme ich voll und ganz zu. Mein Problem ist speziell das Hybrid-Problem (Abschnitt "Welcher Ansatz wird am häufigsten verwendet?"). Sicherlich gibt es Leute, die das tun, was er dort beschreibt, dh das stärkste von p <.001, <.01 oder <.05 melden; Ich sehe es die ganze Zeit in den Neurowissenschaften. Betrachten Sie einen der Fälle, in denen Sie Tests durchführen. Sie wählen zB alpha = .05 und folgen dem NP-Framework. Wenn Sie p = .00011 erhalten, ist Ihre Gewissheit über H1 und Ihre Wahl der Formulierung anders, als wenn Sie p = .049 erhalten würden? Wenn ja, ist es hybride! Wenn nicht, wie kommt es?
Amöbe sagt Reinstate Monica

Antworten:

16

Ich bin davon überzeugt, dass die von Ihnen sorgfältig gesammelten Papiere, Artikel, Beiträge usw. genügend Informationen und Analysen darüber enthalten, wo und warum sich die beiden Ansätze unterscheiden. Aber als andere bedeutet nicht , ist unvereinbar .

Das Problem mit der „Hybrid“ ist , dass es eine Hybrid ist und nicht eine Synthese , und deshalb ist es von vielen als behandelt wird hybris , wenn Sie das Wortspiel entschuldigen.
Da es sich nicht um eine Synthese handelt, wird nicht versucht, die Unterschiede der beiden Ansätze zu kombinieren und entweder einen einheitlichen und in sich konsistenten Ansatz zu schaffen oder beide Ansätze als ergänzende Alternativen im wissenschaftlichen Arsenal zu belassen, um die sehr komplexen Zusammenhänge wirksamer zu bewältigen Welt, die wir versuchen, durch Statistik zu analysieren (zum Glück scheint diese letzte Sache mit dem anderen großen Bürgerkrieg des Feldes, dem frequentistisch-bayesianischen, zu geschehen).

Die Unzufriedenheit damit ist meines Erachtens darauf zurückzuführen, dass es in der Tat zu Missverständnissen bei der Anwendung der statistischen Instrumente und der Interpretation der statistischen Ergebnisse gekommen ist , hauptsächlich durch Wissenschaftler, die keine Statistiker sind , Missverständnisse, die möglicherweise sehr schwerwiegende und schädliche Auswirkungen haben können (wenn man über das Gebiet nachdenkt) der Medizin hilft dabei, dem Thema einen angemessenen dramatischen Ton zu geben). Ich glaube, dass diese Fehlanwendung weithin als Tatsache akzeptiert wurde - und in diesem Sinne kann der Standpunkt des "Anti-Hybrids" als weit verbreitet angesehen werden (zumindest aufgrund der Konsequenzen, die er hatte, wenn nicht aufgrund seiner methodologischen Probleme).

p

Der Hybrid entstand, glaube ich, aus der Erkenntnis, dass es keine so einfache Antwort gab und dass es reale Phänomene gab, für die der eine Ansatz besser geeignet ist als der andere (siehe diesen Beitrag für ein solches Beispiel, so wie ich es unter zumindest, wenn der Ansatz der Fischer angemessener erscheint). Aber anstatt die beiden "getrennt und handlungsbereit" zu halten, wurden sie ziemlich überflüssig zusammengeflickt.

Ich biete eine Quelle an, die diesen "komplementären alternativen" Ansatz zusammenfasst: Spanos, A. (1999). Wahrscheinlichkeitstheorie und statistische Inferenz: ökonometrische Modellierung mit Beobachtungsdaten. Cambridge University Press. , Ch. 14 , insbesondere Abschnitt 14.5, in dem der Autor nach einer formellen und eindeutigen Darstellung der beiden Ansätze in der Lage ist, deutlich auf ihre Unterschiede hinzuweisen und auch zu argumentieren, dass sie als ergänzende Alternativen angesehen werden können.

Alecos Papadopoulos
quelle
6
pα
6
pα
6
FORTSETZUNG Für mich ist dies die Frage nach dem hybriden Ansatz, ob Sie Ihren Kuchen haben und ihn auch essen. Zum Beispiel sollte ein NP-Ansatz ohne Leistungstestberechnungen undenkbar sein, aber die ganze Zeit sehen wir Tests im NP-Framework, aber keine Erwähnung von Leistungsberechnungen.
Alecos Papadopoulos
Off topic, but ... Da Sie Aris Spanos zitieren, frage ich mich, ob Sie diese Frage zu seiner Methodik möglicherweise beantworten können . (Ich habe Aris Spanos die Frage einmal direkt gestellt, und er hat sich freundlicherweise Mühe gegeben, sie zu beantworten. Leider war seine Antwort in derselben Sprache wie seine Papiere und hat mir daher nicht viel geholfen.)
Richard Hardy
13

Meine eigene Meinung zu meiner Frage ist, dass der hybride (dh akzeptierte) Ansatz nicht besonders inkohärent ist. Da ich mir jedoch nicht sicher war, ob ich die Gültigkeit der in den Anti-Hybrid-Papieren vorgebrachten Argumente möglicherweise nicht nachvollziehen kann, war ich froh, dass die Diskussion zusammen mit diesem Papier veröffentlicht wurde:

Leider wurden zwei als Diskussion veröffentlichte Antworten nicht als separate Artikel formatiert und können daher nicht richtig zitiert werden. Dennoch möchte ich aus beiden zitieren:

Berk: Das Thema der Abschnitte 2 und 3 scheint zu sein, dass Fisher nicht mochte, was Neyman und Pearson getan haben, und Neyman nicht mochte, was Fisher getan hat, und deshalb sollten wir nichts tun, was die beiden Ansätze kombiniert. Der Prämisse entgeht hier nichts, aber die Argumentation entgeht mir.

Carlton:Die Autoren bestehen unerbittlich darauf, dass die meiste Verwirrung aus der Vermählung von Fisherian und Neyman-Pearsonian herrührt, dass eine solche Vermählung ein katastrophaler Fehler der modernen Statistiker ist Fehler vom Typ I können nicht im selben Universum existieren. Es ist unklar, ob die Autoren einen sachlichen Grund angegeben haben, warum wir "p-Wert" und "Typ-I-Fehler" nicht im selben Satz aussprechen können. [...] Die "Tatsache" ihrer [F- und NP] -Inkompatibilität ist für mich eine überraschende Nachricht, genau wie für die Tausenden qualifizierter Statistiker, die den Artikel lesen. Die Autoren scheinen sogar zu behaupten, dass Statistiker diese beiden Ideen unter anderem deshalb scheiden sollten, weil Fisher und Neyman einander (oder einander) nicht besonders mochten. s Testphilosophien). Ich habe unsere derzeitige Praxis, die die Philosophie von Fisher und Neyman integriert und die Diskussion sowohl von P-Werten als auch von Fehlern des Typs I - wenn auch nicht parallel - als einen der größten Erfolge unserer Disziplin betrachtet.

Beide Antworten sind sehr lesenswert. Es gibt auch eine Entgegnung von den Original - Autoren, die nicht überzeugend zu mir klingen überhaupt .

Amöbe sagt Reinstate Monica
quelle
1
Es ist eine Sache, nebeneinander zu existieren, es ist eine andere Sache, wenn das eine als das andere betrachtet wird. Aber in der Tat ist dieser Ansatz des Anti-Hybrid-Ansatzes im Sinne von "Es kann überhaupt keine Synthese geben", womit ich überhaupt nicht einverstanden bin. Aber ich sehe den aktuellen Hybrid nicht als eine erfolgreiche Ehe.
Alecos Papadopoulos
2
@Livid, danke für deine Kommentare, das ist interessant, aber ich möchte hier auf weitere Diskussionen verzichten. Ich möchte Sie eher ermutigen, eine neue Antwort zu posten, wenn Sie dies wünschen. Wenn Sie sich dazu entschließen, sollten Sie sich auf das Hauptproblem konzentrieren: Was ist so schlecht an "Hybrid" im Vergleich zu Fisher und NP allein? Sie scheinen den ganzen Ansatz des Signifikanztests, der Nullhypothese usw. zu hassen, aber darum geht es in dieser Frage nicht !
Amöbe sagt Reinstate Monica
1
@Livid: Hmmm, kannst du wirklich klarstellen, warum du sagst, dass das ein Unterscheidungsmerkmal des Hybrids ist? Was wäre die Null in reinem Fisher oder in reinem NP? Angenommen, Sie haben zwei Gruppen und möchten auf einen signifikanten Unterschied prüfen ("Null"). Kann man sich dieser Situation nicht mit allen drei Ansätzen nähern: Pure Fisher, Pure NP und Hybrid?
Amöbe sagt Reinstate Monica
2
@Livid, ich verstehe Ihre Argumente gegen die Null, ich denke nur, dass dieses Problem orthogonal zum Thema Hybrid ist. Ich muss die Anti-Hybrid-Papiere auffrischen, aber soweit ich mich erinnere, dreht sich ihre Kritik an dem Hybrid überhaupt nicht um die Null. Stattdessen geht es darum, Fisher und NP zu kombinieren. Wenn Sie damit nicht einverstanden sind, geben Sie bitte eine Antwort. Lassen wir es für den Moment dabei.
Amöbe sagt Reinstate Monica
2
Ein Hinweis für mich: Ich sollte in diese Antwort einige Zitate aus diesem Aufsatz aufnehmen: Lehmann 1992, The Fisher, Neyman-Pearson Theories of Testing Hypotheses: One Theory or Two?
Amöbe sagt Reinstate Monica
8

Ich befürchte, dass eine echte Antwort auf diese ausgezeichnete Frage ein ausführliches Papier erfordern würde. Hier sind jedoch einige Punkte aufgeführt, die weder in der Frage noch in den aktuellen Antworten enthalten sind.

  1. Die Fehlerrate "gehört" zum Verfahren, aber der Beweis "gehört" zu den experimentellen Ergebnissen. Somit ist es bei mehrstufigen Verfahren mit sequentiellen Stoppregeln möglich, ein Ergebnis mit sehr starker Evidenz gegen die Nullhypothese, aber einem nicht signifikanten Hypothesentestergebnis zu erhalten. Das kann man sich als starke Inkompatibilität vorstellen.

  2. Wenn Sie an Inkompatibilitäten interessiert sind, sollten Sie sich für die zugrunde liegenden Philosophien interessieren. Die philosophische Schwierigkeit ergibt sich aus der Wahl zwischen der Einhaltung des Likelihood-Prinzips und der Einhaltung des Repeated Sampling-Prinzips. Die LP besagt ungefähr, dass bei einem statistischen Modell der Nachweis in einem Datensatz, der für den interessierenden Parameter relevant ist, vollständig in der relevanten Wahrscheinlichkeitsfunktion enthalten ist. Der RSP sagt, dass man Tests vorziehen sollte, die auf lange Sicht Fehlerraten ergeben, die ihren Nennwerten entsprechen.

Michael Lew
quelle
3
Die Monographie "The Likelihood Principle" von JO Berger und RL Wolpert (2. Aufl. 1988) ist meiner Meinung nach eine ruhige, ausgewogene und gute Darstellung von Punkt 2.
Alecos Papadopoulos
5
Berger und Wolpert sind in der Tat eine gute Ausstellung und auch maßgeblich. Ich bevorzuge jedoch das praktischere und weniger mathematische Buch "Likelihood" von AWF Edwards. Immer noch gedruckt, denke ich. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew
2
@MichaelLew hat erklärt, dass eine gültige Verwendung von p-Werten eine Zusammenfassung der Effektgröße ist. Er hat eine großartige Arbeit geleistet, indem er diesen Artikel
Livid
@Livid Der Artikel ist sehr interessant, aber für den neuen Leser lohnt es sich, Folgendes zu erwähnen: Die Grundidee, dass p-Werte 'Index' (vermutlich in einer Eins-zu-Eins-Beziehung zu) Wahrscheinlichkeitsfunktionen stehen, wird im Allgemeinen als falsch verstanden, weil Es gibt Fälle, in denen die gleiche Wahrscheinlichkeit je nach Stichprobenschema unterschiedlichen p-Werten entspricht. Dieses Problem wird ein wenig in der Zeitung diskutiert, aber die Indizierung ist eine sehr ungewöhnliche Position (was natürlich nicht unbedingt falsch macht).
Conjugateprior
8

Eine oft gesehene (und angeblich akzeptierte) Verbindung (oder besser: "Hybrid") zwischen den beiden Ansätzen ist wie folgt:

  1. α
  2. Ho:μ=0H1:μ0
  3. α

    α

    • Ho
    • HoH1
    • 100%(1α)H1

    Wenn der p-Wert nicht klein genug ist, würden Sie sagen

    • Ho
    • HoH1

Aspekte von Neyman-Pearson sind hier:

  • Sie entscheiden etwas
  • Ho
  • Sie kennen die Fehlerrate von Typ I

Fischeraspekte sind:

  • Sie geben den p-Wert an. Jeder Leser hat somit die Möglichkeit, sein eigenes Niveau (zB strikte Korrektur bei Mehrfachprüfungen) zur Entscheidung zu verwenden
  • Grundsätzlich ist nur die Nullhypothese erforderlich, da die Alternative genau das Gegenteil ist
  • μ0

ERWEITERUNG

Während es gut ist, sich der Diskussion über die philosophischen Probleme von Fisher, NP oder dieses hybriden Ansatzes bewusst zu sein (wie von manchen in fast religiöser Raserei gelehrt), gibt es in der Statistik viel relevantere Themen, gegen die man kämpfen muss:

  • Stellen von nicht informativen Fragen (wie binäre Ja / Nein-Fragen anstelle von quantitativen "Wie viel" -Fragen, dh Verwenden von Tests anstelle von Konfidenzintervallen)
  • Datengetriebene Analysemethoden, die zu verzerrten Ergebnissen führen (schrittweise Regression, Testannahmen usw.)
  • Auswahl falscher Tests oder Methoden
  • Ergebnisse falsch interpretieren
  • Verwendung klassischer Statistiken für nicht zufällige Stichproben
Michael M
quelle
1
(+1) Dies ist eine gute Beschreibung des Hybrids (und warum genau es Hybrid ist), aber Sie haben nicht explizit angegeben, wie Sie es bewerten. Stimmen Sie zu, dass das, was Sie beschrieben haben, ein "inkohärenter Mischmasch" ist? Wenn ja warum? Oder halten Sie es für ein vernünftiges Verfahren? Wenn ja, haben die Leute, die behaupten, es sei inkohärent, einen Grund, oder liegen sie einfach falsch?
Amöbe sagt Reinstate Monica
1
α
4

Was ist an ihrem Hybrid so schlimm, wenn man akzeptiert, dass sowohl F als auch NP gültige und sinnvolle Ansätze sind?

Kurze Antwort: Die Verwendung einer Nullhypothese (kein Unterschied, keine Korrelation), unabhängig vom Kontext. Alles andere ist ein "Missbrauch" von Menschen, die sich Mythen darüber gemacht haben, was der Prozess bewirken kann. Die Mythen rühren von Menschen her, die versuchen, ihren (manchmal angemessenen) Einsatz von Vertrauen in Autoritäts- und Konsensheuristiken mit der Unanwendbarkeit des Verfahrens auf ihr Problem in Einklang zu bringen.

Soweit ich weiß, hat sich Gerd Gigerenzer den Begriff "Hybrid" ausgedacht:

Ich fragte den Autor [einen angesehenen statistischen Lehrbuchautor, dessen Buch viele Ausgaben durchlief und dessen Name keine Rolle spielt], warum er das Kapitel über Bayes sowie den unschuldigen Satz aus allen nachfolgenden Ausgaben entfernte.  »Warum haben Sie Statistiken so präsentiert, als hätte sie nur einen Hammer und keinen Werkzeugkasten? Warum haben Sie die Theorien von Fisher und Neyman-Pearson zu einer widersprüchlichen Mischung zusammengefügt, die jeder anständige Statistiker ablehnen würde? “

Zu seiner Ehre sollte ich sagen, dass der Autor nicht zu leugnen versuchte, dass er die Illusion erzeugt hatte, dass es nur ein Werkzeug gibt. Aber er ließ mich wissen, wer daran schuld war. Es gab drei Schuldige: seine Kollegen, die Universitätsverwaltung und seinen Verleger. Die meisten Forscher, so argumentierte er, seien nicht wirklich an statistischem Denken interessiert, sondern nur daran, wie sie ihre Arbeiten veröffentlichen könnten [...]

Das Nullritual:

  1. Richten Sie eine statistische Nullhypothese für "kein Mittelwertunterschied" oder "keine Korrelation" ein. Geben Sie keine Vorhersagen für Ihre Forschungshypothese oder andere inhaltliche Hypothesen an.

  2. p<0.05p<0.01p<0.001p

  3. Führen Sie diesen Vorgang immer durch.

Gigerenzer, G. (November 2004). " Gedankenlose Statistik ". The Journal of Socio-Economics 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Bearbeiten: Und wir sollten immer erwähnen, weil der "Hybrid" so rutschig und schlecht definiert ist, dass die Verwendung der Null-Null zum Ermitteln eines p-Werts vollkommen in Ordnung ist, um die Effektgrößen bei unterschiedlichen Stichprobengrößen zu vergleichen. Es ist der "Test" -Aspekt, der das Problem einführt.

Edit 2: @amoeba Ein p-Wert kann als zusammenfassende Statistik in Ordnung sein. In diesem Fall ist die Nullhypothese nur ein beliebiger Orientierungspunkt: http://arxiv.org/abs/1311.0081 . Sobald Sie jedoch versuchen, eine Schlussfolgerung zu ziehen oder eine Entscheidung zu treffen (dh die Nullhypothese zu "testen"), ist dies nicht mehr sinnvoll. Im Beispiel des Vergleichs zweier Gruppen möchten wir wissen, wie unterschiedlich zwei Gruppen sind und welche unterschiedlichen Erklärungen für Unterschiede dieser Größenordnung und Art möglich sind.

Der p-Wert kann als zusammenfassende Statistik verwendet werden, aus der die Größe der Differenz hervorgeht. Es zu verwenden, um die Nulldifferenz zu "widerlegen / zurückzuweisen", hat jedoch keinen Zweck, den ich erkennen kann. Ich denke auch, dass viele dieser Studiendesigns, die durchschnittliche Messungen von Lebewesen zu einem einzelnen Zeitpunkt vergleichen, falsch sind. Wir sollten beobachten wollen, wie sich einzelne Instanzen des Systems im Laufe der Zeit ändern, und dann einen Prozess entwickeln, der das beobachtete Muster erklärt (einschließlich aller Gruppenunterschiede).

Livid
quelle
2
+1, Danke für deine Antwort und für den Link. Anscheinend habe ich dieses Papier nicht gelesen, ich werde es mir ansehen. Wie ich bereits sagte, hatte ich den Eindruck, dass "Null Null" ein orthogonales Problem zum Thema "Hybrid" ist, aber ich denke, ich sollte Gigerenzers Schriften noch einmal lesen, um das zu überprüfen. Werde versuchen in den nächsten Tagen Zeit zu finden. Ansonsten: Könnten Sie bitte Ihren letzten Absatz präzisieren ("editieren")? Habe ich richtig verstanden, dass es in Ordnung ist, beim Vergleich zweier Effektgrößen eine Null zu haben, aber beim Vergleich einer Effektgröße mit Null eine Null zu haben, ist nicht in Ordnung?
Amöbe sagt Reinstate Monica
1

Ich sehe, dass diejenigen mit mehr Fachwissen als ich Antworten geliefert haben, aber ich denke, dass meine Antwort das Potenzial hat, etwas Zusätzliches hinzuzufügen, deshalb werde ich dies als die Perspektive eines anderen Laien anbieten.

Ist der hybride Ansatz inkohärent?   Ich würde sagen, es hängt davon ab, ob der Forscher mit den Regeln, mit denen er begonnen hat, inkonsistent handelt oder nicht: speziell mit der Ja / Nein-Regel, die bei der Festlegung eines Alpha-Werts zum Tragen kommt.

Inkohärent

Beginnen Sie mit Neyman-Pearson. Der Forscher setzt alpha = 0,05, führt das Experiment aus und berechnet p = 0,052. Der Forscher untersucht diesen p-Wert und betrachtet das Ergebnis unter Verwendung der Fisher-Inferenz (oft implizit) als ausreichend inkompatibel mit der Testhypothese, dass immer noch behauptet wird, dass "etwas" vor sich geht. Das Ergebnis ist irgendwie "gut genug", obwohl der p-Wert größer als der Alpha-Wert war. Oft wird dies mit einer Sprache wie "fast signifikant" oder "tendenziell signifikant" oder einer Formulierung in dieser Richtung gepaart.

Das Einstellen eines Alpha-Werts vor dem Ausführen des Experiments bedeutet jedoch, dass der Ansatz des induktiven Verhaltens von Neyman-Pearson gewählt wurde. Die Entscheidung, diesen Alpha-Wert nach der Berechnung des p-Werts zu ignorieren und damit zu behaupten, dass etwas immer noch interessant ist, untergräbt den gesamten Ansatz, mit dem man begonnen hat. Wenn ein Forscher den Pfad A (Neyman-Pearson) herunterfährt und dann zu einem anderen Pfad (Fisher) springt, wenn er den Pfad, auf dem er sich befindet, nicht mag, halte ich das für inkohärent. Sie stimmen nicht mit den (implizierten) Regeln überein, mit denen sie begonnen haben.

Kohärent (möglicherweise)

Beginnen Sie mit NP. Der Forscher setzt alpha = 0,05, führt das Experiment aus und berechnet p = 0,0014. Der Forscher beobachtet, dass p <alpha ist, und lehnt daher die Testhypothese ab (normalerweise kein Effekt null) und akzeptiert die alternative Hypothese (der Effekt ist real). An diesem Punkt entscheidet der Forscher zusätzlich zu seiner Entscheidung, das Ergebnis als realen Effekt (NP) zu behandeln, daraus (Fisher), dass das Experiment sehr starke Beweise dafür liefert, dass der Effekt real ist. Sie haben dem Ansatz, mit dem sie begonnen haben, eine Nuance verliehen, haben aber den geltenden Regeln nicht widersprochen, indem sie zu Beginn einen Alpha-Wert gewählt haben.

Zusammenfassung

Wenn man mit der Auswahl eines Alpha-Werts beginnt, hat man sich entschieden, den Neyman-Pearson-Pfad zu wählen und die Regeln für diesen Ansatz zu befolgen. Wenn sie irgendwann gegen diese Regeln verstoßen, indem sie fischerische Schlussfolgerungen als Rechtfertigung heranziehen, haben sie inkonsistent / inkohärent gehandelt.

Ich nehme an, man könnte noch einen Schritt weiter gehen und erklären, dass der Ansatz inkohärent ist, weil es möglich ist , den Hybrid inkohärent zu verwenden, aber er scheint tiefer in die philosophischen Aspekte einzudringen, für die ich mich nicht einmal qualifiziert sehe eine Stellungnahme abgeben zu.

Hutspitze zu Michael Lew. Sein Artikel von 2006 hat mir geholfen, diese Themen besser zu verstehen als jede andere Ressource.

MichiganWater
quelle