Nehmen wir an, wir haben die unten angegebenen Statistiken
gender mean sd n
f 1.666667 0.5773503 3
m 4.500000 0.5773503 4
Wie führt man einen T-Test mit zwei Stichproben durch (um festzustellen, ob bei einer Variablen ein signifikanter Unterschied zwischen Männern und Frauen besteht), wobei man Statistiken wie diese anstelle tatsächlicher Daten verwendet?
Ich konnte nirgendwo im Internet finden, wie das geht. Die meisten Tutorials und sogar das Handbuch behandeln den Test nur mit dem tatsächlichen Datensatz.
?pt
) - siehe besonderspt()
- enthalten alle Informationen, die Sie benötigen, um dies selbst zu tun. Und Sie werden eine Menge über Statistiken und R lernen, wenn Sie das tun.tsum.test
Funktion in Paket BSDA werfen , die einen t-Test (zwei Stichproben; Welch oder Gleichvarianz und auch eine Stichprobe) aus den von Ihnen bereitgestellten zusammenfassenden Daten implementiert. Es funktioniert im Grunde wie der T-Test in Vanille R, aber auf der Zusammenfassung Info.tsum.test()
von der ,BSDA library
wie durch @ Nick Cox angegeben. Es macht genau das Gleiche wie das, was @macro in Codezeilen geschrieben hat. Wenn die Frage gestellt wird, wie ist das Verständnis der Hintergrundberechnung für die Berechnung der T-Test-Statistik in R, dann wäre Marco eine angemessenere Antwort. Bitte beachten Sie, ich versuche nicht, jemanden zu beleidigen, sondern nur meine persönliche Meinung zu meinem beruflichen Hintergrund zu äußern. Und @ Marco, das ist eine ordentliche Codierung :)Antworten:
Sie können Ihre eigene Funktion schreiben, basierend auf dem, was wir über die Mechanik des Zwei-Stichproben- Testst wissen . Zum Beispiel erledigt dies die Arbeit:
quelle
t.test
wurde abgelehnt. Hier ist ein Code zur Bestätigung:(tt2 <- t.test2(mean(x1), mean(x2), sd(x1), sd(x2), length(x1), length(x2))); (tt <- t.test(x1, x2)); tt$statistic == tt2[["t"]]; tt$p.value == tt2[["p-value"]]
Sie berechnen es einfach von Hand:
Die erwartete Differenz ist wahrscheinlich Null.
Wenn Sie den p-Wert wollen, benutzen Sie einfach die
pt()
Funktion:So setzen Sie den Code zusammen:
Dies setzt gleiche Abweichungen voraus, was offensichtlich ist, da sie die gleiche Standardabweichung haben.
quelle
R
"? Was ist die Verteilung der Teststatistik (dh , wie Sie von diesem gehen Sie -Werten)?Sie können die Berechnungen basierend auf der Formel im Buch (auf der Webseite) durchführen oder Sie können zufällige Daten mit den angegebenen Eigenschaften generieren (siehe die
mvrnorm
Funktion imMASS
Paket) und die reguläret.test
Funktion für die simulierten Daten verwenden.quelle
mvrnorm
Funktion imMASS
Paket zu verwenden (Sie müssen das empirische Argument auf TRUE setzen).Die Frage fragt nach R, aber das Problem kann bei jeder anderen Statistiksoftware auftreten. Zum Beispiel verfügt Stata über verschiedene sogenannte Sofortbefehle, mit denen Berechnungen allein aus Summenstatistiken möglich sind. Unter http://www.stata.com/manuals13/rttest.pdf finden Sie den speziellen Fall des
ttesti
Befehls, der hier gilt.quelle