Warum wir die Nullhypothese auf der Ebene von 0,05 und nicht auf der Ebene von 0,5 ablehnen (wie wir es in der Klassifikation tun)

11

Das Testen von Hypothesen ähnelt einem Klassifizierungsproblem. Nehmen wir also an, wir haben zwei mögliche Bezeichnungen für eine Beobachtung (Subjekt) - Schuldig gegen Nichtschuldig. Sei Nichtschuld die Nullhypothese. Wenn wir das Problem unter dem Gesichtspunkt der Klassifizierung betrachten würden, würden wir einen Klassifizierer trainieren, der die Wahrscheinlichkeit vorhersagt, dass das Subjekt in jede der beiden Klassen gehört, wenn man die Daten berücksichtigt. Wir würden dann die Klasse mit der höchsten Wahrscheinlichkeit auswählen. In diesem Fall wäre eine Wahrscheinlichkeit von 0,5 die natürliche Schwelle. Wir können den Schwellenwert variieren, falls wir falsch positiven und falsch negativen Fehlern unterschiedliche Kosten zugewiesen haben. Aber selten würden wir so extrem vorgehen, als den Schwellenwert auf 0,05 zu setzen, dh das Subjekt nur dann der Klasse "Schuldig" zuzuweisen, wenn die Wahrscheinlichkeit 0,95 oder höher ist. Aber wenn ich es gut verstehe, Dies ist das, was wir als Standardpraxis tun, wenn wir dasselbe Problem als ein Problem des Hypothesentests betrachten. In diesem letzteren Fall werden wir das Label "Non-Guilty" - gleichbedeutend mit der Zuweisung des Labels "Guilty" - nur dann nicht zuweisen, wenn die Wahrscheinlichkeit, "Non-Guilty" zu sein, weniger als 5% beträgt. Und vielleicht macht dies Sinn, wenn wir wirklich vermeiden wollen, unschuldige Menschen zu verurteilen. Aber warum sollte diese Regel in allen Domänen und in allen Fällen gelten?

Die Entscheidung, welche Hypothese angenommen werden soll, entspricht der Definition eines Schätzers der Wahrheit anhand der Daten. Bei der Maximum-Likelihood-Schätzung akzeptieren wir die Hypothese, die angesichts der Daten wahrscheinlicher ist - nicht unbedingt, wenn auch überwiegend wahrscheinlicher. Siehe die Grafik unten:

Unter Verwendung eines Maximum-Likelihood-Ansatzes würden wir in diesem Beispiel die alternative Hypothese bevorzugen, wenn der Wert des Prädiktors über 3 liegt, z. B. 4, obwohl die Wahrscheinlichkeit, dass dieser Wert aus der Nullhypothese abgeleitet wurde, größer als 0,05 gewesen wäre.

Und während das Beispiel, mit dem ich den Beitrag begonnen habe, vielleicht emotional aufgeladen ist, könnten wir uns andere Fälle vorstellen, z. B. eine technische Verbesserung. Warum sollten wir dem Status Quo einen solchen Vorteil verschaffen, wenn die Daten uns sagen, dass die Wahrscheinlichkeit, dass die neue Lösung eine Verbesserung darstellt, größer ist als die Wahrscheinlichkeit, dass dies nicht der Fall ist?

probability hypothesis-testing classification p-value rf7
quelle

1

Im Wesentlichen basiert es auf RA Fischers Ansicht der Statistik als wissenschaftliches Instrument (glauben Sie jeweils eine Hypothese, bis Sie genügend Beweise dafür haben) und seiner Erfahrung, dass

Standardabweichungen ein nützliches Gleichgewicht zwischen der zu häufigen Ablehnung der Nullhypothese zu bieten schienen und nicht oft genug

2

$2$

Henry

1

Das OP ist richtig, dass die Prämisse hier fehlerhaft ist, es gibt nichts im klassischen NHST-Verfahren, was eine Ablehnung von 5% erfordert. Dies ist ein kulturelles Phänomen von umstrittenem Wert.

Matthew Drury

1

@Matthew Drury: "Wähle große Leute für Basketballteams" ist als Strategie nicht fehlerhaft, nur weil sie nicht genau angibt, wie groß sie sind . Obwohl es, wie Sie wissen, viele andere Probleme gibt, ist es wohl eine Funktion von NHST, den Benutzer auswählen zu lassen, wo die Linie gezogen werden soll. Meine Abneigung gegen Risiken schloss die jüngsten Reisen nach Paris oder London nicht aus, aber Besuche in vielen Ländern: Andere Menschen würden die Grenze anders ziehen. Ich stimme zu, dass es ein kulturelles Phänomen gibt, da verschiedene Gruppen unterschiedliche Konventionen haben, wann Hypothesen abgelehnt werden sollen.

Nick Cox

Ich bin mir nicht sicher, was du in meinem Kommentar Nick liest. Ich denke, ich hätte klarer sein sollen. Ich wünschte nur, die Leute würden mehr darüber nachdenken, problemspezifische Schwellenwerte festzulegen.

Matthew Drury

Sie scheinen zu sagen, dass NHST fehlerhaft ist, weil es keine bestimmte Ablehnungsstufe impliziert. Ich stimme Ihnen in Bezug auf problemspezifische Schwellenwerte zu.

Nick Cox

17

Angenommen, Sie landen vor Gericht und haben es nicht getan. Halten Sie es für fair, dass Sie immer noch eine 50% ige Chance haben, für schuldig befunden zu werden? Ist eine 50% ige Chance unschuldig zu sein "schuldig über den Verstand hinaus Zweifel“? Würden Sie es für fair halten, dass Sie eine 5% ige Chance hatten, für schuldig befunden zu werden, obwohl Sie es nicht getan haben? Wenn ich vor Gericht wäre, würde ich 5% als nicht konservativ genug betrachten.

$\pi$ $e$

Als Antwort auf Ihre Bearbeitung der Frage:

$\alpha$

Maarten Buis
quelle

6

α = 0.05

$\alpha = 0.05$

α = 0.05

$\alpha = 0.05$

8

Es ist wie Sie sagen - es hängt davon ab, wie wichtig falsch positive und falsch negative Fehler sind.

In dem Beispiel, das Sie verwenden, wie Maarten Buis bereits antwortete, ist es kaum fair, verurteilt zu werden, wenn eine 50% ige Wahrscheinlichkeit besteht, dass Sie unschuldig waren.

Betrachten Sie die Anwendung folgendermaßen: Stellen Sie sich vor, Sie möchten wissen, ob ein bestimmtes neues Medikament gegen eine bestimmte Krankheit hilft. Angenommen, Sie finden einen Unterschied zwischen Ihrer Behandlungsgruppe und Ihrer Kontrollgruppe zugunsten der Behandlung. Groß! Die Medizin muss wirken, oder? Sie können die Nullhypothese ablehnen, dass das Medikament nicht wirkt. Ihr p- Wert ist 0,49! Es besteht eine höhere Wahrscheinlichkeit, dass der von Ihnen gefundene Effekt eher auf der Wahrheit als auf dem Zufall beruht!
Bedenken Sie nun Folgendes: Das Medikament hat böse Nebenwirkungen. Sie wollen es nur nehmen, wenn Sie überzeugt sind, dass es funktioniert. Und bist du? Nein, denn es besteht immer noch eine Wahrscheinlichkeit von 51%, dass der Unterschied, den Sie zwischen den beiden Gruppen festgestellt haben, rein zufällig war.

Ich kann mir vorstellen, dass es Domains gibt, in denen Sie mit z. B. 10% zufrieden sind. Ich habe Artikel gesehen, in denen 10% akzeptiert werden. Ich habe auch Artikel gesehen, in denen 2% ausgewählt wurden. Es hängt davon ab, wie wichtig es Ihrer Meinung nach ist, dass Sie davon überzeugt sind, dass die Ablehnung der Nullhypothese auf der Wahrheit und nicht auf dem Zufall beruht. Ich kann mir kaum eine Situation vorstellen, in der Sie mit einer 50% igen Chance zufrieden sind, dass der Unterschied, den Sie gefunden haben, auf purem Glück beruht.

Tami
quelle

5

Andere Antworten haben darauf hingewiesen, dass alles davon abhängt, wie Sie die verschiedenen möglichen Fehler relativ bewerten, und das in einem wissenschaftlichen Kontext $.05$ $.50$

Sie nehmen "[h] ypothesis-Tests [um] einem Klassifizierungsproblem zu ähneln". Die offensichtliche Ähnlichkeit hier ist nur oberflächlich; das ist in einem sinnvollen Sinne nicht wirklich wahr.

$.67$ $.67$

Gehen wir das anders an. Man könnte sagen, dass es ganz einfach ist: Entweder ist die Nullhypothese wahr oder sie ist falsch, also gibt es wirklich nur zwei Möglichkeiten. Die Null ist jedoch typischerweise ein Punktwert (d. H. $0$ ) und die Null, die falsch ist, bedeutet einfach, dass jeder andere Wert als genau $0$ ist der wahre Wert. Wenn wir uns erinnern, dass ein Punkt im Wesentlichen keine Breite hat $100\%$ der Zahlenreihe entspricht der Alternative, die wahr ist. Es sei denn, Ihr beobachtetes Ergebnis ist $0.\bar{0}$ (dh Null bis unendliche Dezimalstellen), Ihr Ergebnis wird näher an einigen Nicht-Dezimalstellen liegen $0$ Wert als es ist $0$ (dh $p<.5$ ). Infolgedessen würden Sie immer zu dem Schluss kommen, dass die Nullhypothese falsch ist. Um dies deutlich zu machen, ist die falsche Prämisse in Ihrer Frage, dass es eine einzelne, aussagekräftige blaue Linie (wie in Ihrer Abbildung dargestellt) gibt, die verwendet werden kann, wie Sie vorschlagen.

Dies muss jedoch nicht immer der Fall sein. Es kommt manchmal vor, dass es zwei Theorien gibt, die unterschiedliche Vorhersagen über ein Phänomen treffen, bei dem die Theorien ausreichend gut mathematisiert sind, um genaue Punktschätzungen und wahrscheinliche Stichprobenverteilungen zu erhalten. Dann kann ein kritisches Experiment entwickelt werden, um zwischen ihnen zu unterscheiden. In einem solchen Fall muss keine Theorie als Null genommen werden, und das Wahrscheinlichkeitsverhältnis kann als Gewicht der Beweise genommen werden, die die eine oder andere Theorie begünstigen. Diese Verwendung wäre analog zu nehmen $.50$ als dein Alpha. Es gibt keinen theoretischen Grund, warum dieses Szenario nicht das häufigste in der Wissenschaft sein könnte. Es kommt nur vor, dass es derzeit in den meisten Bereichen sehr selten zwei solcher Theorien gibt.

gung - Monica wieder einsetzen
quelle

3

Um die sehr guten vorherigen Antworten zu ergänzen: Ja, 5% sind willkürlich, aber unabhängig von der spezifischen Schwelle, die Sie auswählen, muss sie relativ klein sein, da sonst Hypothesentests wenig Sinn machen.

Sie suchen nach einem Effekt und möchten sicherstellen, dass Ihre Ergebnisse nicht rein zufällig sind. Insofern legen Sie ein Signifikanzniveau , die im Grunde sagt : „Wenn es tatsächlich keine Wirkung ist (Nullhypothese wahr ist ), würde dies die Wahrscheinlichkeit, noch solche Ergebnisse zu erzielen (oder extremen) durch puren Zufall“ . Wenn Sie dies zu hoch einstellen, führt dies zu vielen Fehlalarmen und untergräbt Ihre Fähigkeit, eine aussagekräftige Antwort auf Ihre Forschungsfrage zu erhalten.

Wie immer gibt es einen Kompromiss, daher hat die Forschungsgemeinschaft diese 5% -Richtlinie ausgearbeitet. Aber es ist in verschiedenen Bereichen unterschiedlich. In der Teilchenphysik sind es eher 0,00001% oder so.

khaozavr
quelle

0

Klassifikation und Hypothesentest sind unterschiedlich und wurden unterschiedlich verwendet . In den meisten Fällen verwenden die Menschen

"Klassifizierung", um die Aufgabe zu erfüllen, "etwas nach gemeinsamen Eigenschaften oder Merkmalen zu klassifizieren".
Und verwenden Sie "Hypothesentest", um einige "signifikante Entdeckungen" zu verifizieren.

Beachten Sie, dass beim Testen von Hypothesen die "Nullhypothese" "gesunder Menschenverstand" ist. Wenn wir jedoch Nullhypothesen ablehnen können, haben wir dennoch eine Pause.

Aus diesem Grund haben wir beim Testen von Hypothesen strengere Kriterien. Denken Sie an ein Beispiel für die Entwicklung neuer Drags. Wir möchten sehr vorsichtig sein, um zu sagen, dass dies von Bedeutung und effektiv ist.

Haitao Du
quelle

Warum wir die Nullhypothese auf der Ebene von 0,05 und nicht auf der Ebene von 0,5 ablehnen (wie wir es in der Klassifikation tun)

Antworten: