Meine Situation ist wie folgt: Ich möchte durch eine Monte-Carlo-Studie Werte von zwei verschiedenen Tests auf statistische Signifikanz eines geschätzten Parameters vergleichen (null ist "kein Effekt - Parameter ist Null", und die implizierte Alternative ist " Parameter ist nicht Null "). Test A ist der standardmäßige "unabhängige t-Test mit zwei Stichproben auf Mittelwertgleichheit" mit gleichen Abweichungen unter der Null.
Test B Ich habe mich selbst gebaut. Die hier verwendete Nullverteilung ist eine asymmetrische generische diskrete Verteilung. Aber ich habe den folgenden Kommentar in Rohatgi & Saleh (2001, 2. Aufl., S. 462) gefunden
"Wenn die Verteilung nicht symmetrisch ist, ist der Wert im zweiseitigen Fall nicht gut definiert, obwohl viele Autoren empfehlen, den einseitigen Wert zu verdoppeln . "
Die Autoren diskutieren dies nicht weiter und kommentieren auch nicht den "Vorschlag vieler Autoren", den einseitigen Wert zu verdoppeln . (Das wirft die Frage auf: "Verdopple den Wert von welcher Seite? Und warum diese Seite und nicht die andere?")
Ich konnte zu dieser ganzen Angelegenheit keine weiteren Kommentare, Meinungen oder Ergebnisse finden. Ich verstehe, dass wir mit einer asymmetrischen Verteilung, obwohl wir ein Intervall als symmetrisch um die Nullhypothese in Bezug auf den Wert des Parameters betrachten können, nicht die zweite übliche Symmetrie haben werden, nämlich die der Wahrscheinlichkeitsmassenzuweisung. Aber ich verstehe nicht, warum dies den Wert "nicht gut definiert" macht. Persönlich sehe ich unter Verwendung eines Intervalls, das symmetrisch um die Nullhypothese für die Werte des Schätzers ist, keine DefinitionProblem beim Aussprechen von "Die Wahrscheinlichkeit, dass die Nullverteilung Werte erzeugt, die den Grenzen dieses Intervalls entsprechen oder außerhalb dieses Intervalls liegen, ist XX". Die Tatsache, dass sich die Wahrscheinlichkeitsmasse auf der einen Seite von der Wahrscheinlichkeitsmasse auf der anderen Seite unterscheidet, scheint zumindest für meine Zwecke keine Probleme zu verursachen. Aber es ist eher wahrscheinlich als nicht, dass Rohatgi & Saleh etwas wissen, was ich nicht weiß.
Das ist also meine Frage: Inwiefern ist (oder kann) der Wert im Falle eines zweiseitigen Tests "nicht gut definiert", wenn die Nullverteilung nicht symmetrisch ist?
Ein vielleicht wichtiger Hinweis: Ich gehe die Angelegenheit eher im Sinne der Fischer an, ich versuche nicht, eine strenge Entscheidungsregel im Sinne von Neyman-Pearson zu erhalten. Ich überlasse es dem Benutzer des Tests, die Wert-Informationen zusammen mit anderen Informationen zu verwenden, um Rückschlüsse zu ziehen.
quelle
Antworten:
Wenn wir uns den exakten 2x2-Test ansehen und dies als unseren Ansatz betrachten, kann das, was "extremer" ist, direkt an der "geringeren Wahrscheinlichkeit" gemessen werden. (Agresti [1] erwähnt eine Reihe von Ansätzen verschiedener Autoren zur Berechnung zweier tailed p-Werte nur für diesen Fall des exakten 2x2-Fisher-Tests, von denen dieser Ansatz einer der drei ist, die speziell als "am beliebtesten" erörtert wurden.)
Bei einer kontinuierlichen (unimodalen) Verteilung finden Sie nur den Punkt im anderen Ende mit der gleichen Dichte wie Ihr Abtastwert, und alles, was mit der gleichen oder einer geringeren Wahrscheinlichkeit im anderen Ende auftritt, wird bei der Berechnung des p-Werts mitgezählt.
Für diskrete Verteilungen, die in den Schwänzen monoton nicht zunehmen, ist es ungefähr so einfach. Sie zählen einfach alles mit der gleichen oder einer geringeren Wahrscheinlichkeit als Ihre Stichprobe, was unter den von mir hinzugefügten Annahmen (um den Begriff "Schwänze" mit der Idee in Einklang zu bringen) eine Möglichkeit bietet, dies herauszufinden.
Wenn Sie mit HPD-Intervallen vertraut sind (und wir haben es wieder mit Unimodalität zu tun), ist dies im Grunde genommen so, als würden Sie alles außerhalb eines offenen HPD-Intervalls nehmen, das durch Ihre Beispielstatistik in einem Endpunkt begrenzt ist.
[Wiederholen - das ist die Wahrscheinlichkeit unter der Null, die wir hier gleichsetzen.]
Zumindest im unimodalen Fall scheint es also einfach genug zu sein, Fishers exakten Test zu emulieren und dennoch über die beiden Schwänze zu sprechen.
Es kann jedoch sein, dass Sie nicht beabsichtigt haben, auf diese Weise den Geist von Fischers genauem Test aufzurufen.
Wenn wir also für einen Moment außerhalb dieser Vorstellung darüber nachdenken, was etwas "als oder extremer" macht, gehen wir etwas mehr in Richtung des Endes der Dinge von Neyman-Pearson. Es kann hilfreich sein (bevor Sie testen!), Einen Ablehnungsbereich für einen Test zu definieren, der auf einer allgemeinen Stufe (ich meine nicht, dass Sie buchstäblich einen berechnen müssen, genau wie Sie einen berechnen würden). Sobald Sie dies tun, sollte der Weg zur Berechnung zweier tailed p-Werte für Ihren Fall offensichtlich werden.α
Dieser Ansatz kann nützlich sein, selbst wenn ein Test außerhalb des üblichen Likelihood-Ratio-Tests durchgeführt wird. Für einige Anwendungen kann es schwierig sein, herauszufinden, wie p-Werte in asymmetrischen Permutationstests berechnet werden. Oft wird es jedoch wesentlich einfacher, wenn Sie zuerst über eine Ablehnungsregel nachdenken.
Bei F-Varianz-Tests ist mir aufgefallen, dass der "Double-One-Tail-P-Wert" dem, was ich als den richtigen Ansatz betrachte, ganz andere P-Werte verleihen kann. [Es sollte keine Rolle spielen, welche Gruppe Sie "Stichprobe 1" nennen oder ob Sie die größere oder die kleinere Varianz in den Zähler eingeben.]
[1]: Agresti, A. (1992),
A Survey of Exact Inference for Contingency Tables
Statistical Science . 7 , No. 1. (Feb.), S. 131-153.
quelle
Es ist zu beachten, dass kumulative Verteilungsfunktionen für ordnungserhaltende Transformationen invariant sind, sodass im obigen Beispiel die Verdoppelung des niedrigsten p-Werts ergibt
Eine Art Fortsetzung zu dieser Antwort, einige grundlegende Aspekte der Testkonstruktion der Diskussion , in der die alternative Hypothese explizit angegeben ist, kann gefunden werden hier .
für die unteren und oberen einseitigen p-Werte ist der zweiseitige p-Wert gegeben durch
; dh indem zum kleineren einseitigen p-Wert der größte erreichbare p-Wert im anderen Schwanz addiert wird, der diesen nicht überschreitet. Beachten Sie, dass2t
quelle