Ich habe zwei Datenproben, eine Basisprobe und eine Behandlungsprobe.
Die Hypothese ist, dass die Behandlungsprobe einen höheren Mittelwert als die Basisprobe hat.
Beide Proben haben eine exponentielle Form. Da die Daten ziemlich groß sind, habe ich zum Zeitpunkt der Durchführung des Tests nur den Mittelwert und die Anzahl der Elemente für jede Stichprobe.
Wie kann ich diese Hypothese testen? Ich vermute, dass es super einfach ist, und ich habe mehrere Hinweise auf die Verwendung des F-Tests gefunden, bin mir aber nicht sicher, wie die Parameter zugeordnet sind.
hypothesis-testing
statistical-significance
exponential
Jonathan Dobbie
quelle
quelle
Antworten:
Sie können die Gleichheit der Mittelwertparameter gegen die Alternative testen, dass die Mittelwertparameter mit einem Likelihood-Ratio-Test (LR-Test) ungleich sind. (Wenn sich die mittleren Parameter jedoch unterscheiden und die Verteilung exponentiell ist, handelt es sich um eine Skalenverschiebung, nicht um eine Ortsverschiebung.)
Für einen einseitigen Test (aber nur asymptotisch im zweiseitigen Fall) glaube ich, dass der LR-Test dem folgenden entspricht (um zu zeigen, dass dies tatsächlich der gleiche ist wie der LR-Test für den einseitigen Fall müsste man zeigen, dass die LR-Statistik in ) monoton war :x¯/y¯
Nehmen wir an, wir parametrisieren die te Beobachtung im ersten Exponential mit pdf und die te Beobachtung in der zweiten Stichprobe mit pdf (über die offensichtlichen Bereiche für die Beobachtungen und Parameter). (Um klar zu sein, arbeiten wir hier in der Mittelwertform und nicht in der Ratenform. Dies hat keinen Einfluss auf das Ergebnis der Berechnungen.)1 / μ x exp ( - x i / μ x ) j 1 / μ y exp ( - y j / μ y )i 1/μxexp(−xi/μx) j 1/μyexp(−yj/μy)
Da die Verteilung der ein Spezialfall des Gamma ist, , die Verteilung der Summe von ‚s, verteilt ; Ähnlich , daß für die Summe aus der s, ist .Xi Γ(1,μx) X Sx Γ(nx,μx) Y Sy Γ(ny,μy)
Wegen der Beziehung zwischen der Gammaverteilung und Chi-Quadrat - Verteilungen, es stellt sich heraus , dass verteilt . Das Verhältnis zweier Chi-Quadrate zu ihren Freiheitsgraden ist F. Daher das Verhältnis .2/μxSx χ22nx μyμxSx/nxSy/ny∼F2nx,2ny
Unter der Nullhypothese der Gleichheit der , , und unter der zweiseitigen Alternative können die Werte dazu neigen, entweder kleiner oder größer als ein Wert aus der Null zu sein Verteilung, so dass Sie einen zweiseitigen Test benötigen.x¯/y¯∼F2nx,2ny
Simulation, um zu überprüfen, ob wir in der Algebra keinen einfachen Fehler gemacht haben:
Hier simulierte ich 1000 Stichproben der Größe 30 für und 20 für aus einer Exponentialverteilung mit demselben Mittelwert und berechnete die obige Statistik des Mittelwertverhältnisses.X Y
Unten finden Sie ein Histogramm der resultierenden Verteilung sowie eine Kurve, die die Verteilung zeigt, die wir unter der Null berechnet haben:F
Beispiel mit Diskussion der Berechnung von zweiseitigen p-Werten :
Zur Veranschaulichung der Berechnung hier zwei kleine Beispiele aus Exponentialverteilungen. Die X-Stichprobe enthält 14 Beobachtungen aus einer Population mit einem Mittelwert von 10, die Y-Stichprobe enthält 17 Beobachtungen aus einer Population mit einem Mittelwert von 15:
Die Stichprobenmittel sind 12.082 bzw. 16.077. Das Mittelwertverhältnis beträgt 0,7515
Der Bereich links ist unkompliziert, da er sich im unteren Schwanz befindet (berechnet in R):
Wir brauchen die Wahrscheinlichkeit für den anderen Schwanz. Wenn die Verteilung umgekehrt symmetrisch wäre, wäre dies unkompliziert.
Eine übliche Konvention mit dem Varianzverhältnis F-Test (der ähnlich zweiseitig ist) besteht darin, einfach den einseitigen p-Wert zu verdoppeln (effektiv, was wie hier vor sich geht ; das scheint auch in R zu tun zu sein ); in diesem Fall ergibt sich ein p-Wert von 0,44.
Wenn Sie dies jedoch mit einer formalen Ablehnungsregel tun, indem Sie einen Bereich von in jeden Schwanz einfügen, erhalten Sie kritische Werte, wie hier beschrieben . Der p-Wert ist dann das größte , das zur Zurückweisung führen würde. Dies entspricht der Addition des obigen einseitigen p-Werts zu dem einseitigen p-Wert im anderen Schwanz für die vertauschten Freiheitsgrade. Im obigen Beispiel ergibt dies einen p-Wert von 0,43.α/2 α
quelle
Als Ergänzung zur Antwort von @ Glen_b lautet das Wahrscheinlichkeitsverhältnis die Sie in wobei . Es gibt ein einzelnes Minimum bei , daher ist der F-Test in der Tat der Likelihood-Ratio-Test gegen einseitige Alternativen zur Nullhypothese identischer Verteilungen.
Um den für eine zweiseitige Alternative geeigneten Likelihood-Ratio-Test durchzuführen, können Sie weiterhin die F-Verteilung verwenden. Sie müssen lediglich den anderen Wert des Verhältnisses der Stichprobenmittelwerte für das das Wahrscheinlichkeitsverhältnis gleich dem beobachteten Verhältnis , und dann . Für dieses Beispiel ist , & , was einen Gesamt-p-Wert von (ziemlich nahe an dem, der durch die Chi-Quadrat-Näherung an erhalten wird die Verteilung des doppelten logarithmischen Wahrscheinlichkeitsverhältnisses ( ). r o b s Pr ( R > r E L R )rELR robs Pr(R>rELR) rELR=1.3272 Pr(R>rELR)=0.2142 0.4352 0.4315
Die Verdoppelung des einseitigen p-Werts ist jedoch möglicherweise die häufigste Methode, um einen zweiseitigen p-Wert zu erhalten: Dies entspricht der Ermittlung des Werts des Verhältnisses der Stichprobenmittelwerte für die die Endwahrscheinlichkeit ist gleich und findet dann . Auf diese Weise erklärt, scheint es, als würde der Wagen vor das Pferd gestellt, um die Schwanzwahrscheinlichkeiten die Extremität einer Teststatistik definieren zu lassen. Es kann jedoch gerechtfertigt sein, dass es sich tatsächlich um zwei einseitige Tests (jeweils LRT) mit mehreren Vergleichen handelt Korrektur - & Leute sind normalerweise daran interessiert, entweder oder Pr ( R > r E T P ) Pr ( R < r o b s ) Pr ( R > r E T P ) μ x > μ y μ x < μ y μ x > μ y μ x < μ yrETP Pr(R>rETP) Pr(R<robs) Pr(R>rETP) μx>μy μx<μy μx>μy oder . Es ist auch weniger umständlich und gibt selbst bei relativ kleinen Stichproben die gleiche Antwort wie das eigentliche zweiseitige LRT.μx<μy
R-Code folgt:
quelle