Was bedeutet Fisher mit diesem Zitat?

14

Ich sehe dieses berühmte Zitat überall, verstehe den hervorgehobenen Teil jedoch nicht jedes Mal.

Ein Mann, der eine Hypothese aus Gewohnheitsgründen provisorisch ablehnt, wenn die Signifikanz bei 1% oder höher liegt, wird mit Sicherheit in nicht mehr als 1% solcher Entscheidungen falsch liegen. Denn wenn die Hypothese richtig ist, wird er in nur 1% dieser Fälle verwechselt, und wenn sie falsch ist, wird er niemals in Ablehnung verwechselt. [...] Die Berechnung ist jedoch absurd akademisch, denn tatsächlich hat kein wissenschaftlicher Mitarbeiter ein festes Signifikanzniveau, bei dem er von Jahr zu Jahr und unter allen Umständen Hypothesen ablehnt; Vielmehr überlegt er jeden einzelnen Fall im Lichte seiner Beweise und seiner Ideen.Es sollte nicht vergessen werden, dass es sich bei den Fällen, die für die Anwendung eines Tests ausgewählt wurden, offensichtlich um eine hoch ausgewählte Gruppe handelt und dass die Auswahlbedingungen nicht einmal für einen einzelnen Arbeitnehmer festgelegt werden können. Weder dass es in dem verwendeten Argument eindeutig unzulässig wäre, das tatsächliche Signifikanzniveau zu wählen, das von einem bestimmten Prozess angegeben wird, als wäre es seine lebenslange Gewohnheit, nur dieses Niveau zu verwenden.

(Statistical Methods and Scientific Inference, 1956, S. 42-45)

Genauer gesagt verstehe ich nicht

  1. Warum werden die Fälle für die Anwendung eines Tests als "hoch ausgewählt" eingestuft? Angenommen, Sie fragen sich, ob die durchschnittliche Körpergröße von Personen in einem Bereich weniger als 165 cm beträgt, und beschließen, einen Test durchzuführen. Das Standardverfahren besteht meines Wissens darin, zufällige Stichproben aus dem Bereich zu ziehen und deren Höhe zu messen. Wie kann dies hoch ausgewählt werden?
  2. Angenommen, die Fälle sind hoch ausgewählt, aber wie hängt dies mit der Wahl des Signifikanzniveaus zusammen? Betrachten Sie das obige Beispiel noch einmal: Wenn Ihre Stichprobenmethode (die von Fisher als Auswahlbedingungen bezeichnet wird ) verzerrt ist und auf irgendeine Weise große Menschen bevorzugt, ist die gesamte Forschung ruiniert, und die subjektive Bestimmung des Signifikanzniveaus kann sie nicht speichern.
  3. Eigentlich weiß ich nicht einmal, worauf sich "das tatsächliche Signifikanzniveau eines bestimmten Prozesses" bezieht. Ist es der p Wert dieses Experiments, ein voreingestellter Wert wie der (in) berühmte 0,05 oder etwas anderes?
nalzok
quelle

Antworten:

15

Hier ist meine Umschreibung dessen, was Fisher in Ihrem kühnen Zitat sagt. Es sollte nicht vergessen werden, dass bei der Auswahl der zu prüfenden Hypothese eine Menge zu beachten ist, sodass selbst für die Entscheidung einer einzelnen Person nicht alles angegeben werden kann. Es sollte auch nicht vergessen werden, dass Sie sich aus den oben genannten Gründen nicht immer auf die gleiche Weise wie ein Leben lang für das Signifikanzniveau einer bestimmten Studie entscheiden können.

  1. Eine wissenschaftliche Hypothese wird aufgrund der Vorurteile der Forscher und ihres aktuellen Wissensstands als prüfenswert gegen viele andere konkurrierende Hypothesen ausgewählt. Die Hypothesen sind "hoch ausgewählt", nicht die Stichproben; Die Hypothesen sind die Fälle, in denen wir Tests anwenden.

  2. Der Auswahlprozess der Hypothesen beeinflusst unser Signifikanzniveau. Wenn wir uns einer Hypothese sehr sicher sind, sollte dies das Signifikanzniveau weniger streng machen, um uns selbst zu befriedigen. Wenn wir uns nicht sicher sind, ist die Beweislast höher. Andere Faktoren spielen ebenfalls eine Rolle, beispielsweise, dass der Typ-I-Fehler in Arzneimittelstudien schlimmer ist als der Typ-II-Fehler.

  3. Ich denke, wenn er "angezeigt durch" sagt, bedeutet er einfach "ausgewählt für". Ja, es ist ein voreingestellter Wert, bei dem wir die Hypothese ablehnen, wenn der p-Wert extremer ist.

Drew N
quelle
10

Die Fälle, auf die sich Fisher bezieht, sind keine Beobachtungen, sondern Tests. Das heißt, wir wählen zu testende Hypothesen aus. Wir testen nicht nur zufällige Hypothesen - wir stützen sie auf Beobachtung, Literatur, wissenschaftliche Theorien und so weiter.

Wenn Sie taten Test Zufalls Hypothesen, dann ist die Anzahl der Sie (im ersten Satz Ihres Zitat) irren würden 1% (oder was auch immer Wert gewählt wird ). ZB wenn wir Hypothesen wie getestet haben

  • Die Parität der Sozialversicherungsnummer einer Person hängt von ihrem IQ ab

  • Blondhaarige werfen Frisbees besser als dunkelhaarige

  • Die Zeit, um eine Antwort bei Cross Validated zu erhalten, hängt von der Anzahl der Silben in Ihrem Vornamen ab.

Wenn wir eine ganze Reihe von ihnen mit 1% getestet haben, lehnten wir die Null in etwa 1% der Fälle ab und taten dies falsch. (Es sei denn natürlich, ich bin auf etwas mit dem oben genannten Unsinn).

Ich habe einmal einen Artikel über Haarfarbe und Frisbee-Werfen gesehen - und dabei einen Unterschied festgestellt! Also nenne ich so etwas "Frisbee-Forschung".

Aber der Teil, den ich aus dem Zitat am besten finde, ist folgender:

denn in der Tat hat kein wissenschaftlicher Arbeiter eine feste Bedeutungsebene, auf der er von Jahr zu Jahr und unter allen Umständen Hypothesen ablehnt; Vielmehr überlegt er jeden einzelnen Fall im Lichte seiner Beweise und seiner Ideen.

Er muss sich in seinem Grab drehen.

Peter Flom - Wiedereinsetzung von Monica
quelle
4
Dies ist eine gute Antwort, aber ich zögere, "Frisbee-Forschung" als schlechte Dinge anzusehen. Solange die Methoden richtig angewendet werden (unter Berücksichtigung der Effektgröße usw.), würde ich das Ergebnis für plausibel halten. Ich meine, es wird angenommen, dass Haarfarbe nichts mit Frisbee-Werfen zu tun hat, aber es wurde akzeptiert, dass die Erde bis vor Hunderten von Jahren im Zentrum des Universums liegt! Wir können Menschen dafür kritisieren, dass sie etwas falsch gemacht haben, aber wir sollten niemanden beschuldigen, Fragen zu stellen. Trotzdem stimme ich zu, dass einige Hypothesen weniger nützlich sind als andere, aber dennoch richtig sein können .
Nalzok
Und sie können auch Typ-I-Fehler sein.
Peter Flom - Wiedereinsetzung von Monica
1
Related: xkcd.com/882
jkdev
2

Beim Versuch, den Hintergrund des Zitats zu sehen, bin ich zu einer Version des Buches gekommen (ich bin nicht sicher, welche Version welche ist), die ein etwas anderes Zitat hat

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Die Versuche, die Kohärenz von Tests von Bedeutung in der wissenschaftlichen Forschung unter Bezugnahme auf die hypothetischen Häufigkeiten möglicher Aussagen zu erklären, die darauf beruhen, ob sie richtig oder falsch sind, scheinen daher den wesentlichen Charakter solcher Tests zu verfehlen. Ein Mann, der eine Hypothese aus Gewohnheitsgründen vorläufig "ablehnt", wenn die Signifikanz bei 1% oder höher liegt, wird mit Sicherheit in nicht mehr als 1% solcher Entscheidungen falsch liegen. Denn wenn die Hypothese richtig ist, wird er in nur 1% dieser Fälle verwechselt, und wenn sie falsch ist, wird er niemals in Ablehnung verwechselt. Diese Ungleichheitserklärung kann daher abgegeben werden. Die Berechnung ist jedoch absurd akademisch, denn tatsächlich hat kein wissenschaftlicher Mitarbeiter ein festes Signifikanzniveau, bei dem von Jahr zu Jahr und unter allen Umständen er weist Hypothesen zurück; Vielmehr überlegt er jeden einzelnen Fall im Lichte seiner Beweise und seiner Ideen. Ferner basiert die Berechnung lediglich auf einer Hypothese, die im Lichte der Beweise oftmals überhaupt nicht als wahr angesehen wird, so dass die tatsächliche Wahrscheinlichkeit einer fehlerhaften Entscheidung unter der Annahme, dass ein solcher Ausdruck irgendeine Bedeutung hat, wahrscheinlich ist viel weniger als die Frequenz, die das Signifikanzniveau angibt. Auch für einen praktischen Menschen, der eine Hypothese ablehnt, ist es natürlich gleichgültig, mit welcher Wahrscheinlichkeit er dazu gebracht wird, die Hypothese falsch anzunehmen, denn in seinem Fall akzeptiert er sie nicht. wird oft überhaupt nicht für wahr gehalten, so dass die tatsächliche Wahrscheinlichkeit einer fehlerhaften Entscheidung, wenn angenommen wird, dass ein solcher Ausdruck irgendeine Bedeutung hat, viel geringer sein kann als die Häufigkeit, die das Signifikanzniveau angibt. Auch für einen praktischen Menschen, der eine Hypothese ablehnt, ist es natürlich gleichgültig, mit welcher Wahrscheinlichkeit er dazu gebracht wird, die Hypothese falsch anzunehmen, denn in seinem Fall akzeptiert er sie nicht. wird oft überhaupt nicht für wahr gehalten, so dass die tatsächliche Wahrscheinlichkeit einer fehlerhaften Entscheidung, wenn angenommen wird, dass ein solcher Ausdruck irgendeine Bedeutung hat, viel geringer sein kann als die Häufigkeit, die das Signifikanzniveau angibt. Auch für einen praktischen Menschen, der eine Hypothese ablehnt, ist es natürlich gleichgültig, mit welcher Wahrscheinlichkeit er dazu gebracht wird, die Hypothese falsch anzunehmen, denn in seinem Fall akzeptiert er sie nicht.

Dies scheint mir eine Kritik zu sein, den mathematischen Ausdruck von Ablehnungsmöglichkeiten, Typ-I-Fehlern, als strenges Argument zu verwenden. Diese Ausdrücke sind oft kein guter Ausdruck für das, was relevant ist, und sie sind auch nicht streng.

  1. Warum werden die Fälle für die Anwendung eines Tests als "hoch ausgewählt" eingestuft?

    Dies scheint sich auf den Satz zu beziehen

    Ferner basiert die Berechnung lediglich auf einer Hypothese, die angesichts der Beweise häufig überhaupt nicht als wahr angesehen wird

    Wir stehen der getesteten Hypothese nicht gleichgültig gegenüber, und oft wird angenommen, dass eine getestete Hypothese nicht wahr ist.

  2. Wie hängt das mit der Wahl des Signifikanzniveaus zusammen?

    Das bezieht sich auf

    so dass die tatsächliche Wahrscheinlichkeit einer fehlerhaften Entscheidung, wenn angenommen wird, dass eine solche Phrase irgendeine Bedeutung hat, viel geringer sein kann als die Häufigkeit, die das Signifikanzniveau angibt

    Der p-Wert ist nur die Häufigkeit der einen Fehler zu machen , wenn die Nullhypothese ist wahr. Die tatsächliche Fehlerhäufigkeit ist jedoch unterschiedlich (niedriger).

  3. worauf bezieht sich "das tatsächliche Signifikanzniveau, das durch einen bestimmten Versuch angezeigt wird"?

    Ich glaube, dieser Teil bezieht sich auf eine Art p-Wert-Hacking. Ändern des Signifikanzniveaus Alpha, nachdem die Beobachtungen stattgefunden haben, um dem beobachteten p-Wert zu entsprechen, und so tun, als wäre dies von Anfang an der Grenzwert.

Sextus Empiricus
quelle