Der folgende Auszug stammt aus dem Beitrag: Was sind die Unterschiede zwischen einseitigen und zweiseitigen Tests? , auf der Statistik-Hilfeseite der UCLA.
... überlegen Sie, welche Konsequenzen das Ausbleiben eines Effekts in die andere Richtung hat. Stellen Sie sich vor, Sie haben ein neues Medikament entwickelt, von dem Sie glauben, dass es eine Verbesserung gegenüber einem vorhandenen Medikament darstellt. Sie möchten Ihre Fähigkeit maximieren, die Verbesserung zu erkennen, und entscheiden sich für einen einseitigen Test. Dabei wird nicht geprüft, ob das neue Medikament möglicherweise weniger wirksam ist als das vorhandene.
Nachdem ich die absoluten Grundlagen des Hypothesentests erlernt und mich mit einem Test gegen zwei Tests befasst habe, verstehe ich die grundlegende Mathematik und die verbesserte Erkennungsfähigkeit von Tests mit einem Schwanz usw. Aber ich kann mich einfach nicht um meinen Kopf wickeln um eine Sache ... Was ist der Sinn? Ich verstehe wirklich nicht, warum Sie Ihr Alpha zwischen den beiden Extremen aufteilen sollten, wenn Ihr Sample-Ergebnis nur in der einen oder der anderen oder in keiner sein kann.
Nehmen Sie das Beispielszenario aus dem oben zitierten Text. Wie könnten Sie möglicherweise "nicht testen", um ein Ergebnis in die entgegengesetzte Richtung zu erhalten? Sie haben Ihren Stichprobenmittelwert. Sie haben Ihre Bevölkerung bedeuten. Einfache Arithmetik sagt Ihnen, was höher ist. Was gibt es in die entgegengesetzte Richtung zu testen oder nicht zu testen? Was hält Sie davon ab, mit der entgegengesetzten Hypothese von vorne anzufangen, wenn Sie deutlich sehen, dass der Stichprobenmittelwert in die andere Richtung abweicht?
Ein weiteres Zitat von derselben Seite:
Die Auswahl eines einseitigen Tests nach dem Ausführen eines zweiseitigen Tests, bei dem die Nullhypothese nicht verworfen wurde, ist nicht angemessen, auch wenn der zweiseitige Test nahezu signifikant war.
Ich gehe davon aus, dass dies auch für das Umschalten der Polarität Ihres einseitigen Tests gilt. Aber wie ist dieses "behandelte" Ergebnis weniger gültig, als wenn Sie einfach den richtigen einseitigen Test gewählt hätten?
Klar, ich vermisse hier einen großen Teil des Bildes. Alles scheint einfach zu willkürlich. Was es ist, denke ich, in dem Sinne, dass das, was "statistisch signifikant" bedeutet - 95%, 99%, 99,9% ..., zunächst willkürlich ist.
quelle
Antworten:
Stellen Sie sich die Daten als die Spitze des Eisbergs vor - alles, was Sie über dem Wasser sehen können, ist die Spitze des Eisbergs, aber in Wirklichkeit sind Sie daran interessiert, etwas über den gesamten Eisberg zu lernen.
Statistiker, Datenwissenschaftler und andere, die mit Daten arbeiten, achten darauf, dass das, was sie über der Wasserlinie sehen, keinen Einfluss auf die Bewertung dessen hat, was sich unter der Wasserlinie verbirgt. Aus diesem Grund neigen sie in einer Hypothesentestsituation dazu, ihre Null- und Alternativhypothesen zu formulieren, bevor sie die Spitze des Eisbergs sehen, basierend auf ihren Erwartungen (oder deren Fehlen), was passieren könnte, wenn sie den Eisberg in seiner Gesamtheit betrachten könnten .
Das Betrachten der Daten zur Formulierung Ihrer Hypothesen ist eine schlechte Praxis und sollte vermieden werden - es ist, als würde man den Karren vor das Pferd stellen. Erinnern Sie sich daran, dass die Daten aus einer einzelnen Stichprobe stammen, die (hoffentlich unter Verwendung eines Zufallsauswahlmechanismus) aus der Zielpopulation / dem interessierenden Universum ausgewählt wurde. Die Stichprobe weist ihre eigenen Besonderheiten auf, die die zugrunde liegende Grundgesamtheit widerspiegeln können oder nicht. Warum sollten Ihre Hypothesen einen schmalen Teil der Bevölkerung widerspiegeln anstatt die gesamte Bevölkerung?
Eine andere Möglichkeit, dies zu bedenken, besteht darin, dass jedes Mal, wenn Sie eine Stichprobe aus Ihrer Zielpopulation auswählen (unter Verwendung eines Zufallsauswahlmechanismus), die Stichprobe unterschiedliche Daten liefert. Wenn Sie die Daten (die Sie nicht verwenden sollten !!!) verwenden, um Ihre Spezifikation der Null- und Alternativhypothesen zu bestimmen, werden Ihre Hypothesen über die gesamte Karte verteilt, was im Wesentlichen von den eigenwilligen Merkmalen jeder Stichprobe abhängt. In der Praxis ziehen wir natürlich nur eine Stichprobe, aber es wäre ein sehr beunruhigender Gedanke zu wissen, dass jemand anderes, der dieselbe Studie mit einer anderen Stichprobe derselben Größe durchführt, seine Hypothesen ändern müsste, um die Realität von widerzuspiegeln ihre Probe.
Einer meiner Hochschulprofessoren sagte sehr weise: "Die Stichprobe interessiert uns nicht, außer dass sie etwas über die Bevölkerung aussagt . " Wir möchten unsere Hypothesen formulieren, um etwas über die Zielpopulation zu erfahren, nicht über die Stichprobe, die wir zufällig aus dieser Population ausgewählt haben.
quelle
Ich denke, wenn Sie über Ihre Frage nachdenken, ist es hilfreich, wenn Sie versuchen, das Ziel / die Verkaufsargumente des Nullhypothesen-Signifikanztests (NHST) im Auge zu behalten. Es ist nur ein Paradigma (wenn auch ein sehr populäres) für statistische Inferenz, und die anderen haben auch ihre eigenen Stärken (siehe hier für eine Diskussion von NHST in Bezug auf Bayesianische Inferenz). Was ist der große Vorteil von NHST ?: Langfristige Fehlerkontrolle . Wenn Sie sich an die Regeln von NHST halten (und manchmal ist das ein sehr großes Problem ), sollten Sie ein gutes Gefühl dafür haben, wie wahrscheinlich es ist, dass Sie langfristig mit den von Ihnen gemachten Schlussfolgerungen falsch liegen.
Eine der Persnickety-Regeln von NHST ist, dass Sie, ohne weitere Änderungen an Ihrem Testverfahren, nur einen Blick auf Ihren Test von Interesse werfen dürfen. In der Praxis ignorieren Forscher häufig diese Regel (siehe Simmons et al., 2012) und führen nach dem Hinzufügen von Datenwellen mehrere Tests durch und überprüfen derenp -Werte nach dem Hinzufügen / Entfernen von Variablen zu ihren Modellen usw. Das Problem dabei ist, dass Forscher in Bezug auf das Ergebnis von NHST selten neutral sind; Sie sind sich sehr wohl bewusst, dass signifikante Ergebnisse eher veröffentlicht werden als nicht signifikante Ergebnisse (aus Gründen, die sowohl falsch als auch legitim sind; Rosenthal, 1979). Forscher sind daher häufig motiviert, Daten hinzuzufügen / Modelle zu ändern / Ausreißer auszuwählen und wiederholt zu testen, bis sie einen signifikanten Effekt "aufdecken" (siehe John et al., 2011, eine gute Einführung).
Ein kontraproduktives Problem wird durch die oben in Dienes (2008) beschriebenen Praktiken verursacht: Wenn die Forscher ihre Stichprobe / ihr Design / ihre Modelle so lange anpassen, bis die Signifikanz erreicht ist, werden die gewünschten langfristigen Fehlerraten falsch positiver Befunde (häufig ) und falsch-negative Befunde (oft ) nähern sich jeweils 1.0 und 0.0 (dh Sie lehnen immer ab , sowohl wenn es falsch ist als auch wenn es wahr ist).α=.05 β=.20 H0
Im Zusammenhang mit Ihren spezifischen Fragen verwenden Forscher standardmäßig zweiseitige Tests, wenn sie keine besonderen Vorhersagen in Bezug auf die Richtung des Effekts treffen möchten. Wenn sie falsch raten und einen einseitigen Test in Richtung des Effekts durchführen, wird ihr langfristiges aufgeblasen. Wenn sie sich beschreibende Statistiken ansehen und einen einseitigen Test durchführen, der auf ihrem Augapfel des Trends basiert, wird ihr langfristiges aufgeblasen. Sie mögen denken, dass dies in der Praxis kein großes Problem ist, dass die Werte ihre langfristige Bedeutung verlieren, aber wenn sie ihre Bedeutung nicht behalten, stellt sich die Frage, warum Sie einen Ansatz verwenden, um darauf zu schließen priorisiert die langfristige Fehlerkontrolle.α pα α p
Schließlich (und je nach persönlicher Präferenz) hätte ich weniger Probleme, wenn Sie zuerst einen zweiseitigen Test durchgeführt hätten, ihn für nicht signifikant befunden hätten und dann den einseitigen Test in die Richtung durchgeführt hätten, die der erste Test implizierte, und fand es signifikant, wenn (und nur wenn) Sie eine strikte bestätigende Replikation dieses Effekts in einer anderen Stichprobe durchführten und die Replikation in derselben Veröffentlichung veröffentlichten. Die explorative Datenanalyse - mit einer flexiblen Analysepraxis, die die Fehlerrate erhöht - ist in Ordnung, solange Sie in der Lage sind, Ihren Effekt in einer neuen Probe ohne dieselbe analytische Flexibilität zu replizieren.
Verweise
Dienes, Z. (2008). Psychologie als Wissenschaft verstehen: Eine Einführung in die wissenschaftliche und statistische Inferenz . Palgrave Macmillan.
John, LK, Loewenstein, G. & amp; Prelec, D. (2012). Messung der Prävalenz fragwürdiger Forschungspraktiken mit Anreizen zur Wahrheitsfindung. Psychological Science , 23 (5), 524-532.
Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin , 86 (3), 638.
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science , 22 (11), 1359 & ndash; 1366.
quelle
Leider ist das motivierende Beispiel für die Entwicklung von Medikamenten nicht gut, da wir es nicht tun, um Medikamente zu entwickeln. Wir wenden andere, strengere Regeln an, um die Studie zu stoppen, wenn Trends schädlich sind. Dies dient der Sicherheit der Patienten und auch deshalb, weil es unwahrscheinlich ist, dass das Medikament auf magische Weise in Richtung eines bedeutenden Nutzens schwingt.
Also warum zwei tailed Tests ? (Wenn wir in den meisten Fällen eine A-priori- Vorstellung von der möglichen Wirkungsrichtung haben, die wir zu modellieren versuchen)
Die Nullhypothese sollte eine gewisse Ähnlichkeit mit dem Glauben haben, plausibel, informiert und gerechtfertigt zu sein. In den meisten Fällen ist man sich einig, dass ein "uninteressantes Ergebnis" vorliegt, wenn der Effekt 0 ist, während ein negativer oder positiver Effekt von gleichem Interesse ist. Es ist sehr schwierig, eine zusammengesetzte Nullhypothese zu formulieren, z. B. wenn wir wissen, dass die Statistik gleich oder istweniger als eine bestimmte Menge. Man muss eine Nullhypothese sehr deutlich ausdrücken, um ihre wissenschaftlichen Erkenntnisse zu verstehen. Es sei darauf hingewiesen, dass die Art und Weise, in der ein zusammengesetzter Hypothesentest durchgeführt wird, darin besteht, dass die Statistik unter der Nullhypothese den beständigsten Wert innerhalb des Bereichs der beobachteten Daten annimmt. Wenn der Effekt also wie erwartet in die positive Richtung geht, wird der Nullwert ohnehin als 0 angenommen, und wir haben unnötigerweise darüber nachgedacht.
Ein zweiseitiger Test bedeutet, zwei einseitige Tests mit Kontrolle für mehrere Vergleiche durchzuführen! Der zweiseitige Test wird teilweise bewertet, weil er auf lange Sicht konservativer ist. Wenn wir die Wirkungsrichtung gut einschätzen, werden die beiden Tests mit zwei Schwänzen halb so häufig zu falsch-positiven Ergebnissen führen und insgesamt nur sehr geringe Auswirkungen auf die Leistung haben.
Wenn Sie eine Behandlung in einer randomisierten, kontrollierten Studie bewerten und versuchen, mir einen einseitigen Test zu verkaufen, würde ich Sie davon abhalten, zu fragen: "Warten Sie, warum glauben wir, dass die Behandlung tatsächlich schädlich ist? Gibt es tatsächlich Beweise um dies zu unterstützen? Gibt es überhaupt Equipoise [die Fähigkeit, einen positiven Effekt zu demonstrieren]? " Die logische Inkonsistenz hinter dem einseitigen Test stellt die gesamte Forschung in Frage. Wenn wirklich nichts bekannt ist, wird jeder andere Wert als 0 als interessant angesehen und der zweiseitige Test ist nicht nur eine gute Idee, er ist notwendig.
quelle
Eine Möglichkeit, dies zu erreichen, besteht darin, das Testen von Hypothesen vorübergehend zu vergessen und stattdessen über Konfidenzintervalle nachzudenken. Einseitige Tests entsprechen einseitigen Konfidenzintervallen und zweiseitige Tests entsprechen zweiseitigen Konfidenzintervallen.
Angenommen, Sie möchten den Mittelwert einer Population schätzen. Natürlich nehmen Sie eine Stichprobe und berechnen einen Stichprobenmittelwert. Es gibt keinen Grund, eine Punktschätzung zum Nennwert vorzunehmen. Aus diesem Grund drücken Sie Ihre Antwort in einem Intervall aus, bei dem Sie sich sicher sind, dass es den wahren Mittelwert enthält. Welche Art von Intervall wählen Sie? Ein zweiseitiges Intervall ist bei weitem die natürlichere Wahl. Ein einseitiges Intervall ist nur dann sinnvoll, wenn es Ihnen einfach egal ist, ob Sie eine Obergrenze oder eine Untergrenze Ihrer Schätzung finden (weil Sie glauben, dass Sie bereits eine nützliche Grenze in eine Richtung kennen). Wie oft bist du dir da wirklich so sicher?
Die Frage auf Konfidenzintervalle zu verlagern, ist vielleicht nicht so einfach, aber es ist methodisch inkonsistent, einseitige Tests, aber zweiseitige Konfidenzintervalle zu bevorzugen.
quelle
Das Problem ist, dass Sie nicht wissen, was die Bevölkerung bedeutet. Ich habe noch nie ein reales Szenario erlebt, in dem ich die wahre Bevölkerungszahl kenne.
Ich habe Ihren Absatz mehrmals gelesen, bin mir aber bei Ihren Argumenten immer noch nicht sicher. Möchten Sie es umformulieren? Sie können nicht "testen", ob Ihre Daten Sie nicht in die von Ihnen ausgewählten kritischen Regionen bringen.
Das Zitat ist korrekt, weil das Hacken eines p-Werts nicht angebracht ist. Wie viel wissen wir über P-Hacking "in the wild"? hat mehr Details.
Es ist beliebig. Aus diesem Grund geben Datenwissenschaftler im Allgemeinen die Größe des p-Werts selbst (nicht nur signifikant oder unbedeutend) sowie die Größe der Effekte an.
quelle
Nun, jeder Unterschied hängt von der Frage ab, die Sie beantworten möchten. Wenn die Frage lautet: "Ist eine Wertegruppe größer als die andere?" Sie können einen One-Tailed-Test verwenden. Um die Frage zu beantworten: "Unterscheiden sich diese Wertegruppen?" Sie verwenden den zweiseitigen Test. Bedenken Sie, dass ein Datensatz statistisch höher sein kann als ein anderer, aber statistisch nicht anders ... und das sind Statistiken.
quelle
Der Alpha-Wert ist die Wahrscheinlichkeit, dass Sie die Null ablehnen, vorausgesetzt, die Null ist wahr. Angenommen, Ihre Null ist, dass der Stichprobenmittelwert normal mit dem Mittelwert Null verteilt ist. Wenn P (Stichprobenmittelwert> 1 | H0) = 0,05 ist, hat die Regel "Sammle eine Stichprobe und lehne die Null ab, wenn der Stichprobenmittelwert größer als 1 ist" eine Wahrscheinlichkeit von 5% von die Null ablehnen. Die Regel "Sammle eine Stichprobe und wenn der Stichprobenmittelwert positiv ist, lehne die Null ab, wenn der Stichprobenmittelwert größer als 1 ist, und wenn der Stichprobenmittelwert negativ ist, lehne die Null ab, wenn der Stichprobenmittelwert kleiner als 1 ist" hat a Wahrscheinlichkeit von 10% der Zurückweisung der Null, vorausgesetzt, dass die Null wahr ist. Die erste Regel hat also ein Alpha von 5% und die zweite Regel ein Alpha von 10%. Wenn Sie mit einem zweiseitigen Test beginnen, und ändern Sie es dann in einen einseitigen Test basierend auf den Daten, dann folgen Sie der zweiten Regel, so dass es ungenau wäre, Ihr Alpha als 5% zu melden. Der Alpha-Wert hängt nicht nur von den Daten ab, sondern auch von den Regeln, nach denen Sie sie analysieren. Wenn Sie sich fragen, warum Sie eine Metrik mit dieser Eigenschaft verwenden, und nicht etwas, das nur von den Daten abhängt, ist dies eine kompliziertere Frage.
quelle
Zum 2. Punkt
Wenn die Null wahr ist, wird der erste zweiseitige Test fälschlicherweise mit der Wahrscheinlichkeit , aber der einseitige Test wird möglicherweise auch in der zweiten Stufe zurückgewiesen.α
Die allgemeine Ablehnungswahrscheinlichkeit übersteigt daher , und Sie testen nicht mehr auf dem Niveau, von dem Sie glauben, dass es sich um einen Test handelt. Sie erhalten häufiger falsche Ablehnungen als in der Fälle, auf die die Strategie angewendet wird wahre Nullhypothesen.α α⋅100%
Insgesamt suchen wir das wir als ausdrücken können. Die beiden Ereignisse in der Vereinigung sind unzusammenhängend, so dass wir nach Für den zweiten Term gibt es eine Wahrscheinlichkeitsmasse zwischen den oberen und Quantilen (dh den Abstoßungspunkten der einseitige und zweiseitige Tests), wobei es sich um die gemeinsame Wahrscheinlichkeit handelt, dass der zweiseitige Test nicht ablehnt, sondern nur einseitig. Daher,
Hier ist eine kleine numerische Illustration:
quelle
Dies ist nur eine willkürliche Sichtweise: Wofür wird ein statistischer Test verwendet? Wahrscheinlich ist der häufigste Grund für die Durchführung eines Tests der, dass Sie Personen (Redakteure, Rezensenten, Leser, Publikum) davon überzeugen möchten, dass Ihre Ergebnisse "nicht zufällig genug" sind, um bemerkenswert zu sein. Und irgendwie sind wir zu dem Schluss gekommen, dass die willkürliche, aber universelle Wahrheit ist.p<α=0.05
Aus irgendeinem anderen vernünftigen Grund, Tests durchzuführen, würden Sie sich niemals mit einem festen von , aber Sie würden Ihr von Fall zu Fall variieren , je nachdem, wie wichtig die Konsequenzen waren, die Sie aus dem Test ziehen.0,05 αα 0.05 α
Zurück zur Überzeugung der Menschen, dass etwas "weit genug vom Zufall entfernt" ist, um ein universelles Kriterium der Bekanntheit zu erfüllen. Wir haben ein nicht nachvollziehbares, aber allgemein akzeptiertes Kriterium, das wir für zweiseitiges Testen für "nicht zufällig" beiα=0.05 . Ein äquivalentes Kriterium wäre, sich die Daten anzusehen, zu entscheiden, wie sie getestet werden sollen, und die Linie bei zeichnen . Das zweite ist gleichbedeutend mit dem ersten, aber es ist nicht das, womit wir uns historisch abgefunden haben.α=0.025
Sobald Sie mit einseitigen Tests mit , werden Sie misstrauisch gegenüber unangemessenem Verhalten und dem Fischen nach Bedeutung. Tun Sie das nicht, wenn Sie Menschen überzeugen wollen!α=0.05
Dann gibt es natürlich das, was man als Freiheitsgrad der Forscher bezeichnet . Sie können Signifikanz in jeder Art von Daten finden, wenn Sie über ausreichende Daten verfügen und diese auf beliebig viele Arten testen können. Aus diesem Grund sollten Sie sich für den Test entscheiden, den Sie durchführen, bevor Sie sich die Daten ansehen. Alles andere führt zu nicht reproduzierbaren Testergebnissen. Ich rate dir, auf YouTube zu gehen und dir Andrew Gelmans Vortrag "Verbrechen an Daten" anzusehen, um mehr darüber zu erfahren.
quelle
Keine dieser Aussagen lässt auf den ersten Blick den Schluss zu, dass ein zweiseitiger Test einer einseitigen Studie „überlegen“ ist. Es muss lediglich eine logische Verbindung zwischen der zu testenden Forschungshypothese und der zu testenden statistischen Folgerung bestehen.
Zum Beispiel:
Zunächst ist dies eine Arzneimittelstudie. Falsch in die entgegengesetzte Richtung zu sein, hat also eine gesellschaftliche Bedeutung, die über den Rahmen der Statistik hinausgeht. Wie viele gesagt haben, ist Gesundheit nicht das Beste, um Verallgemeinerungen anzustellen.
Im obigen Zitat scheint es darum zu gehen, ein Medikament zu testen, wenn bereits ein anderes existiert. Für mich bedeutet dies, dass Ihr Medikament bereits wirksam ist. Die Aussage bezieht sich auf den Vergleich von zwei wirksamen Arzneimitteln danach. Wenn Sie diese Verteilungen vergleichen, wenn Sie eine Seite der Bevölkerung vernachlässigen, um die Vergleichsergebnisse zu verbessern? Es ist nicht nur eine voreingenommene Schlussfolgerung, sondern der Vergleich ist nicht mehr gültig, um dies zu rechtfertigen: Sie vergleichen Äpfel mit Orangen.
Ebenso kann es durchaus Punktschätzungen geben, die aus statistischen Gründen keinen Unterschied zur Schlussfolgerung machen, aber von großer sozialer Bedeutung sind. Das liegt daran, dass unsere Stichprobe das Leben der Menschen darstellt: etwas, das nicht "wiederkehren" kann und von unschätzbarem Wert ist.
Alternativ impliziert die Aussage, dass der Forscher einen Anreiz hat: "Sie möchten Ihre Fähigkeit maximieren, die Verbesserung zu erkennen ..." Dieser Begriff ist nicht trivial, wenn der Fall als schlechtes Protokoll isoliert wird.
Auch hier bedeutet dies, dass der Forscher seinen Test „umstellt“: von zweiseitig zu einseitig. Das ist niemals angebracht. Vor dem Testen muss unbedingt ein Forschungszweck festgelegt werden. Indem die Forscher stets auf die Bequemlichkeit eines zweiseitigen Ansatzes zurückgreifen, können sie das Phänomen bequemerweise nicht genauer verstehen.
Hier ist ein Artikel zu genau diesem Thema, in dem dargelegt wird, dass zweiseitige Tests zu häufig verwendet wurden.
Die Überbeanspruchung eines zweiseitigen Tests wird auf das Fehlen eines:
Es ist die Position und Haltung der Forscher:
https://www.sciencedirect.com/science/article/pii/S0148296312000550
quelle
Oft wird ein Signifikanztest für die Nullhypothese gegen eine alternative Hypothese durchgeführt . Dies ist der Fall, wenn einseitige oder zweiseitige Verbindungen einen Unterschied machen.
Bei p-Werten spielt dies (zweiseitig oder einseitig) keine Rolle! Der Punkt ist , dass Sie ein Kriterium auswählen , die nur einen Bruchteil auftritt der Zeit , wenn die Nullhypothese wahr ist. Dies sind entweder zwei kleine Stücke beider Schwänze oder ein großes Stück eines Schwanzes oder etwas anderes.α
Die Fehlerrate von Typ I ist bei ein- oder zweiseitigen Tests nicht unterschiedlich.
Auf der anderen Seite, für die Macht ist es wichtig .
Wenn Ihre alternative Hypothese asymmetrisch ist, möchten Sie das Kriterium so fokussieren, dass die Nullhypothese nur an diesem Ende abgelehnt wird. Wenn die alternative Hypothese wahr ist, ist es weniger wahrscheinlich, dass Sie die Nullhypothese nicht ablehnen ("akzeptieren").
Wenn Ihre alternative Hypothese symmetrisch ist (Sie möchten nicht mehr oder weniger Leistung auf eine bestimmte Seite legen) und Ablenkung / Wirkung auf beiden Seiten gleichermaßen erwartet wird (oder nur unbekannt / nicht informiert ist), ist es leistungsfähiger, a zu verwenden zweiseitiger Test (Sie verlieren nicht 50% der Leistung für den Schwanz, den Sie nicht testen, und wo Sie viele Typ-II-Fehler machen werden).
Die Typ-II-Fehlerrate ist bei ein- und zweiseitigen Tests unterschiedlich und hängt auch von der alternativen Hypothese ab.
Es wird mehr und mehr zu einem Bayes'schen Konzept, wenn wir anfangen, Vorurteile darüber zu entwickeln, ob ein Effekt einseitig oder beidseitig zu erwarten ist oder nicht, und wenn wir einen Test verwenden möchten (um zu sehen, ob wir a verfälschen können) Null-Hypothese), um so etwas wie einen Effekt zu 'bestätigen' oder wahrscheinlicher zu machen.
quelle
Also noch ein Antwortversuch:
Ich denke, ob Sie einseitig oder zweiseitig schwanzig sind, hängt vollständig von der Alternativhypothese ab .
Betrachten Sie das folgende Beispiel eines Testmittels in einem t-Test:
Wenn Sie nun einen sehr negativen oder einen sehr positiven Stichprobenmittelwert beobachten, ist es unwahrscheinlich, dass Ihre Hypothese zutrifft.
Auf der anderen Seite sind Sie bereit, Ihre Hypothese zu akzeptieren, wenn Ihr Stichprobenmittelwert in der Nähe von egal ob negativ oder positiv . Nun müssen Sie das Intervall auswählen, in dem Sie Ihre Nullhypothese nicht ablehnen würden, wenn Ihr Stichprobenmittelwert fallen würde. Offensichtlich würden Sie ein Intervall wählen, das sowohl negative als auch positive Seiten um . Sie wählen also den Doppelseitentest.0 00
Aber was , wenn Sie nicht wollen , testen , sondern . Was wir hier intuitiv tun möchten, ist, dass wir, wenn der Wert des Stichprobenmittelwerts sehr negativ ist, unsere Null definitiv ablehnen können. Wir möchten daher Null nur für weitaus negative Werte des Stichprobenmittelwerts ablehnen.μ=0 μ≥0
Aber warte! Wenn das meine Nullhypothese ist, wie würde ich meine Nullverteilung einstellen? Die Nullverteilung des Stichprobenmittelwerts ist für einen angenommenen Wert des Populationsparameters (hier ) bekannt. Unter dem aktuellen Wert null können jedoch viele Werte verwendet werden.0
Nehmen wir an, wir können unendlich viele Nullhypothesen aufstellen. Jeweils für die Annahme eines positiven Wertes von . Aber denken Sie daran: Wenn wir in unserer ersten Hypothese von nur null ablehnen, wenn wir einen sehr weit negativen Stichprobenmittelwert einhalten, würde jede nächste Hypothese mit dies ebenfalls ablehnen. Denn für sie ist der Stichprobenmittelwert noch weiter vom Populationsparameter entfernt. Im Grunde genommen müssen wir also nur eine einzige Hypothese aufstellen, die jedoch einseitig ist .μ H0:μ=0 H0:μ>0
So wird Ihre Lösung:
Bestes Beispiel ist der Dickey-Fuller-Test auf Stationarität.
Hoffe das hilft. (Wollte Diagramme enthalten, aber vom Handy aus antworten).
quelle