Könnte jemand erklären, warum Richard McElreath sagt, dass der genaue Test von Fisher in seinem ausgezeichneten Bayes'schen Einführungsbuch ( Statistical Rethinking ) selten angemessen verwendet wird ?
Als Referenz ist der Kontext unten:
Warum reichen die Tests für innovative Forschung nicht aus? Die klassischen Verfahren der Einführungsstatistik sind in der Regel unflexibel und fragil. Mit unflexibel meine ich, dass sie nur sehr begrenzte Möglichkeiten haben, sich an einzigartige Forschungskontexte anzupassen. Mit fragil meine ich, dass sie auf unvorhersehbare Weise versagen, wenn sie auf neue Kontexte angewendet werden. Dies ist wichtig, da an den Grenzen der meisten Wissenschaften kaum klar ist, welches Verfahren angemessen ist. Keiner der traditionellen Golems wurde in neuartigen Forschungsumgebungen evaluiert, daher kann es schwierig sein, einen auszuwählen und dann zu verstehen, wie er sich verhält.Ein gutes Beispiel ist der exakte Fisher-Test, der (genau) auf einen extrem engen empirischen Kontext zutrifft, aber regelmäßig verwendet wird, wenn die Zellzahl gering ist. Ich habe persönlich Hunderte von Verwendungen von Fischers genauem Test in wissenschaftlichen Fachzeitschriften gelesen, aber abgesehen von Fischers ursprünglicher Verwendung habe ich nie gesehen, dass er angemessen verwendet wurde. Sogar ein Verfahren wie die gewöhnliche lineare Regression, das in vielerlei Hinsicht sehr flexibel ist und eine große Vielfalt interessanter Hypothesen codieren kann, ist manchmal fragil. Wenn beispielsweise bei Vorhersagevariablen ein erheblicher Messfehler vorliegt, kann das Verfahren auf spektakuläre Weise fehlschlagen. Noch wichtiger ist jedoch, dass es fast immer möglich ist, eine bessere als die gewöhnliche lineare Regression zu erzielen, was hauptsächlich auf ein Phänomen zurückzuführen ist, das als Überanpassung bekannt ist.
Antworten:
Es ist schwer, dieses Zitat zu lesen und nicht zu vermuten, dass der Autor es für einen bloßen Fehler hält, den Fisher's Exact Test zu verwenden, wenn die Grenzsummen einer Kontingenztabelle nicht beabsichtigt sind. "Fischers ursprüngliche Verwendung" des Tests muss sich auf die berühmte Dame beziehen, die Tee probiert, der "im Voraus mitgeteilt wurde, woraus der Test bestehen wird, nämlich dass sie gebeten wird, acht Tassen zu probieren, dass dies vier von jeder Art sein sollen. [...] "(Fisher (1935), The Design of Experiments ); † & dann wird "ein extrem enger empirischer Kontext" als "Stichprobenverfahren für wenige in der Praxis durchgeführte Studien" analysiert.
Aber es ist kein Fehler: Die Konditionierung auf die ausreichende Statistik für die Verteilung der Daten unter der Nullhypothese ist eine Standardtechnik, um Störparameter zu eliminieren und Tests mit der richtigen Größe zu erstellen (das ist die Grundlage für Permutationstests). Die Grenzsummen enthalten nur sehr wenige Informationen, anhand derer Sie den interessierenden Parameter, das Odds Ratio, schätzen können. & ziemlich viel über die Präzision, mit der Sie es abschätzen können: Das Argument ist, dass der Probenraum, der durch Konditionieren auf beiden erhalten wird, für die Inferenz viel relevanter ist als der, der durch Konditionieren auf nur einen oder nur auf die Gesamtzahl erhalten wird. Es ist jedoch ein schrecklich grober Probenraum, der zu einem beklagenswerten Leistungsverlust führt. Wie sollte die Relevanz des Probenraums gegen Informationsverlust abgewogen werden? Wie viel Vergröberung des Probenraums ist akzeptabel, bevor ein asymptotisch gültiger oder ein bedingungsloser Test bevorzugt wird? Dies sind ärgerliche Fragen, und die Analyse von zwei mal zwei Kontingenztabellen ist seit einem halben Jahrhundert oder länger umstritten.
Angesichts der Tatsache, dass dies aus einem Bayes'schen Text stammt, hat der Autor meines Erachtens die Gelegenheit verpasst, sich über die Dilemmata lustig zu machen, zu denen eine Verpflichtung zur Verwendung häufiger Methoden führen kann - wie es Jaynes in Probability Theory: The Logic of Science tut
† In einem Artikel, der im selben Jahr wie sein Buch veröffentlicht wurde, verwendete er ein Beispiel, in dem, obwohl das Stichprobenschema nicht explizit angegeben ist, höchstens ein Spielraum im Voraus festgelegt werden konnte und höchstwahrscheinlich nur die Gesamtzahl festgelegt wurde. Gleichgeschlechtliche Zwillinge verurteilter Krimineller werden in einer Zwei-mal-Zwei-Tabelle als monozygot gegen dizygot und als wegen Verbrechen selbst gegen nicht verurteilt eingestuft (Fisher (1935), "The Logic of Inductive Inference", JRSS, 98 , 1,). S. 39–82). [Bearbeiten: Die Daten stammen von Lange (1929), Verbrechen als Schicksal: Studien am kriminellen Zwillingen . Wetzell (2000), Inventing the Criminal: Eine Geschichte der deutschen Kriminologie, 1880–1945 , S. 162] beschreibt Langes Datenerfassungsverfahren; es'
quelle