Ich habe Schwierigkeiten, die zugrunde liegende Logik beim Setzen der Nullhypothese zu verstehen . In dieser Antwort wird die offensichtlich allgemein akzeptierte These aufgestellt, dass die Nullhypothese die Hypothese ist, dass es keine Wirkung geben wird, dass alles gleich bleibt, dh sozusagen nichts Neues unter der Sonne.
Die alternative Hypothese ist dann, was Sie zu beweisen versuchen, dass zB ein neues Medikament hält, was es verspricht.
Jetzt kommen wir aus der Wissenschaftstheorie und der allgemeinen Logik und wissen, dass wir nur Aussagen fälschen können, wir können nichts beweisen (keine Anzahl weißer Schwäne kann beweisen, dass alle Schwäne weiß sind, aber ein schwarzer Schwan kann es widerlegen). Aus diesem Grund versuchen wir, die Nullhypothese zu widerlegen, was nicht mit dem Beweisen der Alternativhypothese gleichkommt - und hier setzt meine Skepsis ein -. Ich gebe ein einfaches Beispiel:
Angenommen, ich möchte herausfinden, was für ein Tier sich hinter einem Vorhang befindet. Leider kann ich das Tier nicht direkt beobachten, aber ich habe einen Test, der mir die Anzahl der Beine dieses Tieres gibt. Jetzt habe ich folgende logische Überlegung:
Wenn das Tier ein Hund ist, hat es 4 Beine.
Wenn ich den Test durchführe und feststelle, dass er 4 Beine hat, ist dies kein Beweis dafür, dass es sich um einen Hund handelt (es kann sich um ein Pferd, ein Nashorn oder ein anderes vierbeiniges Tier handeln). Aber wenn ich herausfinde, dass es keine 4 Beine hat, ist dies ein eindeutiger Beweis dafür, dass es kein Hund sein kann (vorausgesetzt ein gesundes Tier).
Übersetzt in Drogeneffektivität möchte ich herausfinden, ob die Droge hinter dem Vorhang wirksam ist. Das einzige, was ich bekommen werde, ist eine Zahl, die mir den Effekt gibt. Wenn der Effekt positiv ist, ist nichts bewiesen (4 Beine). Wenn es keine Wirkung gibt, widerlege ich die Wirksamkeit des Arzneimittels.
Wenn ich das alles sage, denke ich, dass die einzig gültige Nullhypothese entgegen der allgemeinen Weisheit sein muss
Das Medikament ist wirksam (dh wenn das Medikament wirksam ist, werden Sie eine Wirkung sehen).
denn das ist das einzige, was ich widerlegen kann - bis zur nächsten Runde, in der ich versuche, genauer zu sein und so weiter. Es ist also die Nullhypothese, die den Effekt angibt, und die Alternativhypothese ist die Standardhypothese ( kein Effekt ).
Warum scheinen statistische Tests es rückwärts zu haben?
PS : Sie können die obige Hypothese nicht einmal annullieren, um eine gültige äquivalente Hypothese zu erhalten. Sie können daher nicht als Nullhypothese "Das Medikament ist nicht wirksam" sagen , da die einzige logisch äquivalente Form "wäre, wenn Sie keinen Effekt sehen, den das Medikament nicht haben wird "Wirksam" bringt Sie nirgendwo hin, denn jetzt ist die Schlussfolgerung, was Sie herausfinden wollen!
PPS : Nur zur Klarstellung nach dem Lesen der bisherigen Antworten: Wenn Sie die wissenschaftliche Theorie akzeptieren, dass Sie Aussagen nur fälschen, aber nicht beweisen können, ist das Einzige, was logisch konsistent ist, die Nullhypothese als neue Theorie zu wählen - und das kann dann sein gefälscht. Denn wenn Sie den Status Quo verfälschen, bleiben Sie mit leeren Händen (der Status Quo ist widerlegt, aber die neue Theorie ist noch lange nicht bewiesen!). Und wenn Sie es nicht fälschen, sind Sie auch nicht in einer besseren Position.
Antworten:
In der Statistik gibt es sowohl Äquivalenztests als auch den allgemeineren Test der Null und entscheidet, ob genügend Beweise dagegen vorliegen. Der Äquivalenztest stellt dies auf den Kopf und geht davon aus, dass die Effekte anders sind als die Null, und wir stellen fest, ob es ausreichende Beweise gegen diese Null gibt.
Ihr Drogenbeispiel ist mir nicht klar. Wenn die Antwort ein Wert / Indikator für den Effekt ist, würde ein Effekt von 0 bedeuten, dass er nicht wirksam ist. Man würde das als Null setzen und die Beweise dagegen auswerten. Wenn sich der Effekt ausreichend von Null unterscheidet, würden wir den Schluss ziehen, dass die Hypothese der Nichtwirksamkeit nicht mit den Daten übereinstimmt. Ein zweiseitiger Test würde ausreichend negative Wirkungswerte als Beweis für die Null zählen. Ein einseitiger Test, dessen Wirkung positiv ist und sich ausreichend von Null unterscheidet, könnte ein interessanterer Test sein.
Wenn Sie testen möchten, ob der Effekt 0 ist, müssen Sie dies umdrehen und einen Äquivalenztest durchführen, bei dem H0 der Effekt ungleich Null ist und die Alternative ist, dass H1 = der Effekt = 0. That würde die Beweise gegen die Idee bewerten, dass der Effekt von 0 abweicht.
quelle
0
. Wenn Sie dies umkehren möchten und einen Nicht-Null-Effekt als Null haben möchten, müssen Sie im Voraus wissen, wie hoch der Wert dieses Parameters für die gesamte Grundgesamtheit ist, und ob der Wert des Parameters für den Parameter "" bekannt ist Bevölkerung würde es keinen Sinn machen, zu testen.Ich denke, dies ist ein weiterer Fall, in dem die Frequentist-Statistik keine direkte Antwort auf die Frage geben kann, die Sie tatsächlich stellen möchten, und daher eine (nicht so) subtil andere Frage beantwortet, und es ist leicht, dies als direkte Antwort auf die Frage zu interpretieren Frage, die Sie eigentlich stellen wollten.
Was wir wirklich fragen möchten, ist normalerweise, wie hoch die Wahrscheinlichkeit ist, dass die alternative Hypothese wahr ist (oder wie wahrscheinlich es ist, dass sie wahr ist als die Nullhypothese). Eine frequentistische Analyse kann diese Frage jedoch grundsätzlich nicht beantworten, da eine Wahrscheinlichkeit für einen Frequentisten eine langfristige Häufigkeit ist, und in diesem Fall sind wir an der Wahrheit einer bestimmten Hypothese interessiert, für die es keine langfristige Häufigkeit gibt wahr oder nicht. Ein Bayesianer dagegen kann diese Frage direkt beantworten, da für einen Bayesianer eine Wahrscheinlichkeit ein Maß für die Plausibilität eines Satzes ist. Daher ist es in einer Bayesianischen Analyse durchaus sinnvoll, der Wahrheit einer bestimmten Hypothese eine Wahrscheinlichkeit zuzuweisen.
Die Art und Weise, wie Frequentisten mit bestimmten Ereignissen umgehen, besteht darin, sie als Stichprobe einer (möglicherweise fiktiven) Population zu behandeln und anstelle einer Aussage über die jeweilige Stichprobe eine Aussage über diese Population zu machen. Wenn Sie beispielsweise die Wahrscheinlichkeit einer Verzerrung einer bestimmten Münze nach dem Beobachten von N Flips und dem Beobachten von h Heads and T Tails ermitteln möchten, kann eine frequentistische Analyse diese Frage nicht beantworten, sie kann Ihnen jedoch den Anteil der Münzen aus einer Verteilung von mitteilen unvoreingenommene Münzen, die h oder mehr Köpfe geben würden, wenn sie N-mal geworfen würden. Da es sich bei der natürlichen Definition einer Wahrscheinlichkeit, die wir im Alltag verwenden, im Allgemeinen um eine Bayes'sche und nicht um eine frequentistische handelt, ist es allzu einfach, dies als die Wahrscheinlichkeit zu behandeln, dass die Nullhypothese (die Münze ist unvoreingenommen) wahr ist.
Bei im Wesentlichen häufig vorkommenden Hypothesentests lauert eine implizite subjektivistische Bayes'sche Komponente im Herzen. Der Frequentist Test kann Ihnen sagen, wie wahrscheinlich es ist, eine Statistik zu beobachten, die unter der Nullhypothese mindestens so extrem ist. Die Entscheidung, die Nullhypothese aus diesen Gründen abzulehnen, ist jedoch völlig subjektiv. Die Erfahrung von Essentiall hat gezeigt, dass wir im Allgemeinen auf einem ziemlich soliden Grund sind, die Null abzulehnen, wenn der p-Wert ausreichend klein ist (wiederum ist die Schwelle subjektiv), so wie es die Tradition ist. AFAICS passt nicht gut in die Philosophie oder Theorie der Wissenschaft, es ist im Wesentlichen eine Heuristik.
Das heißt aber nicht, dass es eine schlechte Sache ist, obwohl die Prüfung der Frequentist-Hypothese trotz ihrer Unvollkommenheiten eine Hürde darstellt, die unsere Forschung überwinden muss. Dies hilft uns als Wissenschaftler, unsere Selbstskepsis zu bewahren und uns nicht von unserer Theorienbegeisterung hinreißen zu lassen. Während ich im Herzen ein Bayesianer bin, verwende ich immer noch regelmäßig Hypothesentests für Frequentisten (zumindest bis die Journal-Rezensenten mit den Bayesain-Alternativen vertraut sind).
quelle
Um zu Gavins Antwort hinzuzufügen, ein paar Dinge:
Erstens habe ich gehört, dass Aussagen nur gefälscht, aber nie bewiesen werden können. Könntest du einen Link zu einer Diskussion darüber posten, denn mit unserer Formulierung hier scheint es nicht sehr gut zu funktionieren - wenn X ein Satz ist, dann ist nicht (X) auch ein Satz. Wenn es möglich ist, Sätze zu widerlegen, dann ist das Widerlegen von X dasselbe wie das Beweisen von nicht (X), und wir haben einen Satz bewiesen.
Der Unterschied zwischen dem Hundefall und dem Effektivitätsfall liegt also in der Angemessenheit der Folgerung vom Beweis bis zur Schlussfolgerung. Im Hundefall haben Sie einige Beweise beobachtet, die nicht unbedingt auf einen Hund hindeuten. Im Fall einer klinischen Studie haben Sie jedoch einige Beweise beobachtet, die die Wirksamkeit in hohem Maße implizieren.
quelle
Sie haben Recht damit, dass das Testen von Frequentist-Hypothesen in gewissem Sinne das Gegenteil bewirkt. Ich sage nicht, dass dieser Ansatz falsch ist, sondern dass die Ergebnisse häufig nicht dazu dienen, die Fragen zu beantworten, an denen der Forscher am meisten interessiert ist. Wenn Sie eine Technik suchen, die der wissenschaftlichen Methode ähnlicher ist, versuchen Sie es mit der Bayes'schen Folgerung .
Anstatt von einer "Nullhypothese" zu sprechen, die Sie ablehnen oder nicht ablehnen können, beginnen Sie mit einer vorherigen Wahrscheinlichkeitsverteilung, die auf Ihrem Verständnis der vorliegenden Situation basiert. Wenn Sie neue Beweise erhalten, bietet Ihnen die Bayes'sche Folgerung einen Rahmen, um Ihre Überzeugung mit den berücksichtigten Beweisen zu aktualisieren. Ich denke, das ähnelt eher der Funktionsweise der Wissenschaft.
quelle
Ich denke, Sie haben hier einen fundamentalen Fehler (nicht, dass der gesamte Bereich der Hypothesentests klar ist!), Aber Sie sagen, die Alternative ist das, was wir versuchen zu beweisen. Das ist aber nicht richtig. Wir versuchen die Null abzulehnen (zu verfälschen). Wenn die Ergebnisse, die wir erhalten, sehr unwahrscheinlich wären, wenn die Null wahr wäre, lehnen wir die Null ab.
Nun, wie andere sagten, ist dies normalerweise nicht die Frage, die wir stellen möchten: Es ist uns normalerweise egal, wie wahrscheinlich die Ergebnisse sind, wenn der Nullwert wahr ist, es ist uns wichtig, wie wahrscheinlich der Nullwert angesichts der Ergebnisse ist.
quelle
Wenn ich Sie richtig verstehe, sind Sie mit dem verstorbenen, großartigen Paul Meehl einverstanden. Sehen
Meehl, PE (1967). Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon . Philosophy of Science , 34 : 103–115.
quelle
Ich werde auf die Erwähnung von Paul Meehl durch @Doc eingehen:
1) Testen Sie das Gegenteil Ihrer Forschungshypothese als Nullhypothese, damit Sie nur die Konsequenz bestätigen können, die ein "formal ungültiges" Argument ist. Die Schlussfolgerungen folgen nicht unbedingt aus der Prämisse.
http://rationalwiki.org/wiki/Affirming_the_consequent
Wenn die Theorie lautet "Dieses Medikament wird die Genesung verbessern" und Sie eine verbesserte Genesung beobachten, bedeutet dies nicht, dass Sie sagen können, dass Ihre Theorie wahr ist. Das Auftreten einer verbesserten Erholung könnte aus einem anderen Grund aufgetreten sein. Keine zwei Gruppen von Patienten oder Tieren sind zu Studienbeginn genau gleich und ändern sich im Laufe der Zeit weiter. Dies ist ein größeres Problem für die Beobachtungsforschung als für die experimentelle Forschung, da die Randomisierung gegen schwere Ungleichgewichte unbekannter Störfaktoren zu Studienbeginn "verteidigt". Die Randomisierung löst das Problem jedoch nicht wirklich. Wenn die Verwirrungen unbekannt sind, können wir nicht sagen, inwieweit die "Randomisierungsverteidigung" erfolgreich war.
Siehe auch Tabelle 14.1 und die Diskussion, warum keine Theorie allein getestet werden kann (es gibt immer Hilfsfaktoren, die mitspielen) in:
Paul Meehl. "Das Problem ist die Erkenntnistheorie, nicht die Statistik: Ersetzen Sie Signifikanztests durch Konfidenzintervalle und quantifizieren Sie die Genauigkeit riskanter numerischer Vorhersagen." In LL Harlow, SA Mulaik & JH Steiger (Hrsg.), Was passiert , wenn es keine Signifikanz Tests? (S. 393–425) Mahwah, NJ: Erlbaum, 1997.
2) Wenn eine Art von Verzerrung eingeführt wird (z. B. Ungleichgewicht bei einigen Störfaktoren), wissen wir nicht, in welche Richtung diese Verzerrung weisen wird oder wie stark sie ist. Wir gehen davon aus, dass die Behandlungsgruppe mit einer Wahrscheinlichkeit von 50% in Richtung einer höheren Genesung tendiert. Bei großen Stichproben besteht auch eine 50% ige Wahrscheinlichkeit, dass Ihr Signifikanztest diesen Unterschied erkennt und Sie die Daten als Bestätigung Ihrer Theorie interpretieren.
Diese Situation unterscheidet sich grundlegend von der Nullhypothese, dass "dieses Medikament die Genesung um x% verbessert". In diesem Fall ist es wahrscheinlicher, dass Sie Ihre Theorie ablehnen, wenn eine Verzerrung vorliegt (von der ich sagen würde, dass sie immer beim Vergleichen von Gruppen von Tieren und Menschen besteht).
Denken Sie an den "Raum" (Meehl nennt ihn den "Spielraum") möglicher Ergebnisse, die durch möglichst extreme Messungen begrenzt sind. Vielleicht kann es zu einer Erholung von 0-100% kommen, und Sie können mit einer Auflösung von 1% messen. Im Testfall mit gemeinsamer Signifikanz beträgt der mit Ihrer Theorie übereinstimmende Raum 99% der möglichen Ergebnisse, die Sie beobachten können. Wenn Sie einen bestimmten Unterschied vorhersagen, beträgt der mit Ihrer Theorie übereinstimmende Raum 1% der möglichen Ergebnisse.
Ein anderer Ausdruck ist, dass das Finden von Beweisen gegen eine Nullhypothese von mean1 = mean2 kein schwerwiegender Test für die Forschungshypothese ist, dass ein Medikament etwas tut. Eine Null von mean1 <mean2 ist besser, aber immer noch nicht sehr gut.
Siehe Abbildung 3 und 4 hier: (1990). Bewertung und Änderung von Theorien: Die Strategie der Lakatosianischen Verteidigung und zwei Prinzipien, die ihre Anwendung rechtfertigen . Psychological Inquiry, 1, 108-141, 173-180
quelle
Gehen nicht alle Statistiken von der Annahme aus, dass in der natürlichen Welt nichts sicher ist (im Gegensatz zur künstlichen Welt der Spiele). Mit anderen Worten, der einzige Weg, dem wir uns nähern können, besteht darin, die Wahrscheinlichkeit zu messen, dass eine Sache mit der anderen korreliert, und diese variiert zwischen 0 und 1, kann aber nur 1 sein, wenn wir die Hypothese unendlich oft in einem Test testen können unendlich viele verschiedene Umstände, was natürlich unmöglich ist. Und wir können niemals wissen, dass es aus dem gleichen Grund Null war. Es ist ein verlässlicherer Ansatz, die Realität der Natur zu verstehen, als die Mathematik, die sich auf absolute Gleichungen stützt, von denen wir wissen, dass sie idealistisch sind, denn wenn buchstäblich die linke Seite einer Gleichung wirklich die rechte Seite, die beiden Seiten ist könnte umgekehrt werden und wir würden nichts lernen. Streng genommen gilt dies nur für eine statische Welt, nicht für eine "natürliche", die an sich turbulent ist. Daher sollte die Nullhypothese sogar die Mathematik untermauern - wann immer sie zum Verständnis der Natur selbst verwendet wird.
quelle
Ich denke, das Problem liegt im Wort "wahr". Die Realität der natürlichen Welt ist von Natur aus unerkennbar, da sie im Laufe der Zeit unendlich komplex und unendlich variabel ist. Daher ist die auf die Natur bezogene „Wahrheit“ immer an Bedingungen geknüpft. Alles, was wir tun können, ist zu versuchen, durch wiederholtes Experimentieren Übereinstimmungsgrade zwischen Variablen zu finden. In unserem Versuch, einen Sinn für die Realität zu finden, suchen wir nach einer scheinbaren Ordnung und konstruieren konzeptionell bewusste Modelle, um sinnvolle Entscheidungen treffen zu können unerwartet. Die Nullhypothese ist der einzige verlässliche Ausgangspunkt für unseren Versuch, die Realität zu verstehen.
quelle
Wir müssen die Nullhypothese auswählen, die wir ablehnen möchten.
Da es in unserem Hypothesentestszenario einen kritischen Bereich gibt, lehnen wir die Hypothese ab, wenn der hypothetische Bereich in einen kritischen Bereich fällt, andernfalls akzeptieren wir die Hypothese.
Nehmen wir also an, wir wählen die Nullhypothese, die wir akzeptieren wollen. Und der Bereich unter der Nullhypothese fällt nicht unter den kritischen Bereich. Wir werden also die Nullhypothese akzeptieren. Das Problem hierbei ist jedoch, dass die Region unter der Nullhypothese nicht unter die akzeptable Region fällt. Dies bedeutet jedoch nicht, dass die Region unter der Alternativhypothese nicht unter die akzeptable Region fällt. Und wenn dies der Fall ist, wird unsere Interpretation des Ergebnisses falsch sein. Wir müssen diese Hypothese also nur als Nullhypothese betrachten, die wir ablehnen wollen. Wenn wir die Nullhypothese ablehnen können, bedeutet dies, dass die Alternativhypothese wahr ist. Wenn wir jedoch keine Nullhypothese ablehnen können, bedeutet dies, dass jede der beiden Hypothesen richtig sein kann. Vielleicht können wir dann einen weiteren Test machen, bei dem wir unsere alternative Hypothese als Nullhypothese annehmen können. und dann können wir versuchen, es abzulehnen. Wenn wir in der Lage sind, die alternative Hypothese (die jetzt Nullhypothese ist) abzulehnen, können wir sagen, dass unsere ursprüngliche Nullhypothese wahr war.
quelle