Angabe der Nullhypothese beim Testen von Hypothesen

15

Was ist eine gute Faustregel für die Auswahl der Frage für die Nullhypothese? Wenn ich zum Beispiel überprüfen möchte, ob die Hypothese B wahr ist, sollte ich B als Null, B als Alternativhypothese oder NOT B als Null verwenden? Ich hoffe die Frage ist klar. Ich weiß, dass es etwas mit dem Fehler zu tun hat, den ich minimieren möchte (Typ I?), Aber ich vergesse immer wieder, wie es geht, weil ich keine klare Intuition dafür habe. Vielen Dank.

Nestor
quelle
Jungs ... ausgezeichnete Antworten. Alles hilfreich. Es überrascht mich immer noch, wenn ich diese Ebene der Zusammenarbeit im Web erhalte, nur weil die Leute interessiert sind. Wow, danke !
Nestor

Antworten:

17

Eine Faustregel von einem guten Berater war, die Null-Hypothese auf das Ergebnis zu setzen, das Sie nicht als wahr ansehen möchten, dh auf das Ergebnis, dessen direktes Gegenteil Sie zeigen möchten.

Ein grundlegendes Beispiel: Angenommen, Sie haben eine neue medizinische Behandlung entwickelt und möchten zeigen, dass sie in der Tat besser ist als Placebo. Sie setzen also die Null-Hypothese neue Behandlung ist gleich oder schlechter als Placebo und die alternative Hypothese H 1 : = neue Behandlung ist besser als Placebo.H0: =H1: =

Dies liegt daran, dass Sie im Verlauf eines statistischen Tests entweder die Nullhypothese ablehnen (und die Alternativhypothese favorisieren) oder nicht ablehnen können. Da es Ihr "Ziel" ist, die Nullhypothese abzulehnen, setzen Sie sie auf das Ergebnis, das Sie nicht als wahr ansehen möchten.

Randbemerkung: Mir ist bewusst, dass man keinen statistischen Test einrichten sollte, um es zu verdrehen und zu brechen, bis die Null-Hypothese abgelehnt wird. Die beiläufige Sprache wurde nur verwendet, um diese Regel leichter zu merken.

Dies kann auch hilfreich sein: Was bedeuten p-Werte und t-Werte in statistischen Tests? und / oder Was ist eine gute Einführung in das Testen statistischer Hypothesen für Informatiker?

steffen
quelle
6

Wenn die Hypothese B die interessante Hypothese ist, können Sie not-B als Nullhypothese verwenden und unter der Null die Wahrscheinlichkeit des Fehlers vom Typ I für die falsche Zurückweisung von not-B auf Stufe steuern . Die Zurückweisung von nicht-B wird dann als Beweis für B interpretiert, da wir den Fehler vom Typ I kontrollieren, daher ist es unwahrscheinlich, dass nicht-B wahr ist. Verwirrt ... ? α

Nehmen Sie das Beispiel der Behandlung gegen keine Behandlung in zwei Gruppen aus einer Population. Die interessante Hypothese ist, dass die Behandlung einen Effekt hat, dh es gibt einen Unterschied zwischen der behandelten Gruppe und der unbehandelten Gruppe aufgrund der Behandlung. Die Nullhypothese besagt, dass es keinen Unterschied gibt, und wir kontrollieren die Wahrscheinlichkeit, diese Hypothese fälschlicherweise abzulehnen. Somit kontrollieren wir die Wahrscheinlichkeit, fälschlicherweise zu dem Schluss zu kommen, dass es einen Behandlungseffekt gibt, wenn es keinen Behandlungseffekt gibt. Der Fehler vom Typ II ist die Wahrscheinlichkeit, die Null falsch zu akzeptieren, wenn ein Behandlungseffekt vorliegt.

Die obige Formulierung basiert auf dem Neyman-Pearson-Framework für statistische Tests, wobei statistische Tests als Entscheidungsproblem zwischen Fällen, Null und Alternative angesehen werden. Die Ebene ist der Bruchteil der Male, die wir einen Fehler vom Typ I machen, wenn wir den Test (unabhängig) wiederholen. In diesem Rahmen gibt es wirklich keine formale Unterscheidung zwischen Null und Alternative. Wenn wir die Null und die Alternative vertauschen, vertauschen wir die Wahrscheinlichkeit von Fehlern des Typs I und des Typs II. Wir haben jedoch die oben angegebene Fehlerwahrscheinlichkeit des Typs II nicht kontrolliert (dies hängt davon ab, wie groß der Behandlungseffekt ist), und aufgrund dieser Asymmetrie möchten wir möglicherweise lieber sagen, dass wir diesnicht ablehnenαdie Nullhypothese (stattdessen akzeptieren wir die Nullhypothese). Daher sollten wir vorsichtig sein, um daraus zu schließen, dass die Nullhypothese wahr ist, nur weil wir sie nicht ablehnen können.

In einem Fisherian Signifikanztest- Framework gibt es eigentlich nur eine Nullhypothese und man berechnet unter der Null einen Wert für die beobachteten Daten. Kleinere p- Werte werden als stärkerer Beweis gegen die Null interpretiert. Hier ist die Nullhypothese definitiv nicht-B (keine Wirkung der Behandlung) und der p- Wert wird als die Menge an Beweisen gegen die Null interpretiert. Mit einem kleinen p- Wert können wir sicher die Null verwerfen, dass es keinen Behandlungseffekt gibt, und daraus schließen, dass es einen Behandlungseffekt gibt. In diesem Rahmen können wir die Null nur ablehnen oder nicht ablehnen (niemals akzeptieren), und es geht nur darum, die Null zu verfälschen. Beachten Sie, dass der pppppp-Wert muss nicht durch eine (imaginäre) wiederholte Anzahl von Entscheidungen gerechtfertigt sein.

Kein Framework ist ohne Probleme, und die Terminologie ist oft verwechselt. Ich kann das Buch Statistical evidence: ein Wahrscheinlichkeitsparadigma von Richard M. Royall für eine klare Behandlung der verschiedenen Konzepte empfehlen .

NRH
quelle
5

Die "frequentistische" Antwort besteht darin, eine Nullhypothese der Form "nicht B" zu erfinden und dann gegen "nicht B" zu argumentieren, wie in Steffens Antwort. Dies ist das logische Äquivalent zum Argument "Sie liegen falsch, deshalb muss ich Recht haben". Dies ist die Art von Argumentation, die der Politiker verwendet (dh die andere Partei ist schlecht, deshalb sind wir gut). Es ist ziemlich schwierig, mit mehr als einer Alternative unter dieser Art von Argumentation umzugehen. Dies liegt daran, dass das Argument "Sie liegen falsch, deshalb habe ich Recht" nur dann Sinn macht, wenn nicht beide falsch sein können, was sicherlich passieren kann, wenn es mehr als eine alternative Hypothese gibt.

Die "Bayes'sche" Antwort besteht darin, einfach die Wahrscheinlichkeit der Hypothese zu berechnen, an der Sie interessiert sind, unter der Bedingung, welche Beweise Sie haben. Immer enthält dies Vorinformationen. Dies sind lediglich die Annahmen, die Sie getroffen haben, um Ihr Problem gut zu stellen (alle statistischen Verfahren beruhen auf Vorinformationen, Bayes'sche machen sie nur expliziter). Es besteht normalerweise auch aus einigen Daten, und wir haben nach dem Bayes-Theorem

P(H0|DI)=P(H0|I)P(D|H0I)kP(Hk|I)P(D|HkI)

H0H0ist die "Alternative". Es sind nur die Konnotationen, die durch die Wörter "null" und "alternative" impliziert werden, die sie unterschiedlich erscheinen lassen. Sie können im Fall des "Neyman Pearson Lemma" Äquivalenz zeigen, wenn es zwei Hypothesen gibt, denn dies ist einfach das Wahrscheinlichkeitsverhältnis, das sofort gegeben wird, indem die Chancen des obigen Bayes-Theorems herangezogen werden:

P(H0|DI)P(H1|DI)=P(H0|I)P(H1|I)×P(D|H0I)P(D|H1I)=P(H0|I)P(H1|I)×Λ

H0Λ>Λ~Λ~H1L2L1 where L1 is the "type 1 error loss" and L2 is the "type 2 error loss". These are losses, not probabilities, which describe the relative severity of making each of the two errors. The frequentist criterion is to minimise the one of the average error rates, type 1 or 2, while keeping the other fixed. But because they lead to the same form of decision boundary, we can always find an equivalent bayesian prior*loss ratio for every frequentist minimised error rate.

In short, if you are using the likelihood ratio to test your hypothesis, it does not matter what you call the null hypothesis. Switching the null to the alternative just changes the decision to Λ1<Λ~1 which is mathematically the same thing (you will make the same decision - but based on inverse chi-square cut-off rather than chi-square for your p-value). Playing word games with "failing to reject the null" just doesn't apply to the hypothesis test, because it is a decision, so if there are only two options, then "failing to reject the null" means the same thing as "accepting the null".

probabilityislogic
quelle
3
That first paragraph is a parody of the classical approach to hypothesis testing.
whuber
Hypothesis testing is not always a matter of making a decision. It's often formulated as such, but in science the question may be to document that the null is false and by how much. I view the word playing game as a reminder of this objective. From this point of view, failing to reject is not a decision to accept but a lack of evidence in the data to reject.
NRH
@NRH - I agree, but that is not always the objective. If you want to test a new theory, you want to know how likely it is to be true, just as much you want to know how likely it is false. And although an hypothesis test does not always directly lead to a decision, it seems like a waste of time to bother with testing it if it will not eventually lead to a decision. You are in fact already formulating a decision in your comment: "act as if the null is false". There is only one alternative to this: "act as if the null is true". If there is more than one alternative, then the hypothesis ...
probabilityislogic
(cont'd).. test has not been well defined, and is "mathematically ill-posed" so to speak. There may be great uncertainty about this decision, but there is no other alternatives, the null can't be not true and not false at the same time, unless you have an ill-posed/ambiguous problem. But in this case hypothesis testing is pointless - there can be no proper conclusion.
probabilityislogic
(continuing the rant) - and if the goal is to simply quantify the evidence against the null, then you don't need a hypothesis test. This is what a p-value is for - you don't need to accept or reject, just report its value.
probabilityislogic
1

The null hypothesis should generally assume that differences in a response variable are due to error alone.

For example if you want to test the effect of some factor A on response x, then the null would be: H0 = There is no effect of A on response x.

Failing to reject this null hypothesis would be interpreted as:

1) any differences in x are due to error alone and not A or,

2) that the data are inadequate to detect a difference even though one exists (see Type 2 error below).

Rejecting this null hypothesis would be interpreted as the alternative hypothesis: Ha = There is an effect of A on response x, is true.

Type 1 and Type 2 errors are related to the use of the null hypothesis but not its designation really. Type 1 error occurs when you reject H0 even though it is true - that is, you incorrectly conclude an effect of A on x when one didn't exist. Type 2 error occurs when you fail to reject the H0 even though it is false - that is, you incorrectly conclude no effect of A on x even though one exists.

DQdlM
quelle
1
The third paragraph seems to imply that failing to reject the null means the null is true, but clearly that's wrong: the alternative could be true (and typically is), but does not differ sufficiently from the null to be detected with the given data.
whuber
@whuber - good point, I will edit the answer to reflect this
DQdlM