Ich habe einen statistischen Hintergrund auf Einführungsniveau (vorausgesetzt, ich kenne die mathematische Statistik und die Wahrscheinlichkeit auf einem Bachelor-Niveau (z. B. Wackerly et al., Ross 'Probability) und verfüge über einige Kenntnisse der Maßtheorie).
Ich habe vor kurzem angefangen, experimentelles Design und statistische Berichterstattung in der Bildungsstatistik zu betreiben, und war in einem Projekt beschäftigt, in dem ich im Grunde Rechenschaftsmetriken für Schulen prüfe und die Daten analysieren, Änderungen vorschlagen usw. Beachten Sie, dass ich der einzige bin eine in meiner Abteilung mit einem mathematischen Statistikhintergrund.
In meiner Position haben die Leute dringend empfohlen, die Effektgröße zu verwenden, um die Wirksamkeit von Programmen zu messen. Das einzige Mal, dass ich jemals von Effektstärke gehört habe, ist von meinem Freund, der Psychologie studiert hat. Mein Eindruck ist, dass
Was ist an dieser Metrik im Vergleich zu herkömmlichen Hypothesentests so nützlich und warum sollte ich mich darum kümmern? Für mich ist es nichts anderes als eine Teststatistik für einen Test mit zwei Stichproben . Ich sehe das überhaupt nicht als nützlich an, abgesehen davon, dass vielleicht alles auf den gleichen Maßstab gebracht wird (weshalb jeder wirklich irgendetwas "normalisiert"), aber ich dachte, dass Teststatistiken (wie mir die Effektgröße erscheint) aus der Mode gekommen sind und Werte sind bevorzugt.
quelle
Antworten:
Das ist ein Maß für die Effektgröße, aber es gibt viele andere. Es ist sicherlich nicht dast Test-Statistik. Ihr Maß für die Effektgröße wird oft als Cohens (genau genommen ist dies nur dann richtig, wenn die SD über MLE geschätzt wird, dh ohne Bessels Korrektur ). allgemeiner wird es als "standardisierte mittlere Differenz" bezeichnet. Vielleicht wird dadurch klarer, dass t ≠ d : dd t≠d
Im Allgemeinen liefert das Herausnehmen der Stichprobengröße aus dem Wert echte Informationen. Angenommen, der wahre Effekt ist nicht genau bis unendlich Dezimalstellen, können Sie mit ausreichend N ein beliebiges Signifikanzniveau erreichen0 N . Der Wert gibt Auskunft darüber, wie sicher wir sein können, die Nullhypothese abzulehnen. Dies geschieht jedoch, indem wir die Größe des Effekts mit der Menge Ihrer Daten in Einklang bringen. Es ist sicherlich schön zu wissen, ob wir die Nullhypothese ablehnen sollten, aber es wäre auch schön zu wissen, ob der Effekt Ihrer pädagogischen Intervention große Gewinne für Schulkinder bringt oder trivial ist und nur aufgrund großer N signifikant war . p N
quelle
Ich erwarte, dass jemand mit einem Hintergrund in einem relevanteren Bereich (z. B. Psychologie oder Erziehung) eine bessere Antwort findet, aber ich werde es versuchen.
" Effektgröße " ist ein Begriff mit mehr als einer Bedeutung - was vor vielen Jahren zu einigen verwirrenden Gesprächen führte, bis ich schließlich zu dieser Erkenntnis kam. Hier haben wir es eindeutig mit der für Standardabweichungen skalierten Version zu tun ("Um wie viele Standardabweichungen hat sich das geändert?").
Ein Grund für die Betrachtung dieser Art von "Effektgröße" in den Themenbereichen, in denen sie häufig vorkommen, besteht darin, dass sie häufig Variablen haben, deren bestimmte Werte nicht von Natur aus bedeutsam sind, sondern darauf ausgelegt sind, eine zugrunde liegende Sache zu messen, die schwer zu ermitteln ist beim.
Stellen Sie sich zum Beispiel vor, Sie versuchen, die Arbeitszufriedenheit zu messen (möglicherweise für ein Modell, das sich auf eine Reihe unabhängiger Variablen bezieht, beispielsweise auf eine Behandlung von Interesse). Sie haben keine Möglichkeit, direkt darauf zuzugreifen, aber Sie könnten (zum Beispiel) versuchen, einen Fragebogen zu erstellen, um verschiedene Aspekte davon zu erfassen, vielleicht unter Verwendung einer Likert-Skala.
Ein anderer Forscher hat möglicherweise einen anderen Ansatz, um die Arbeitszufriedenheit zu messen, und daher sind Ihre beiden "Zufriedenheits" - Messreihen nicht direkt vergleichbar - aber wenn sie die verschiedenen Gültigkeitsformen haben und so weiter, werden diese Dinge überprüft (so dass sie können vernünftigerweise die Zufriedenheit messen), dann kann gehofft werden, dass sie sehr ähnliche Effektgrößen haben; Zumindest wird die Effektgröße annähernd vergleichbar sein.
quelle
Die obige Formel gibt an, wie Sie Cohens d für verwandte Stichproben berechnen (welche haben Sie wahrscheinlich?). Wenn diese nicht verwandt sind, können Sie stattdessen die gepoolte Varianz verwenden. Es gibt verschiedene Statistiken, die Sie über die Effektgröße informieren, aber Cohens d ist ein standardisiertes Maß, das zwischen 0 und 3 variieren kann. Wenn Sie viele verschiedene Variablen haben, kann es hilfreich sein, über ein standardisiertes Maß nachzudenken sie alle zusammen. Andererseits ziehen es viele Menschen vor, die Effektgröße in Bezug auf die gemessenen Einheiten zu verstehen. Warum berechnen Sie d, wenn Sie bereits p-Werte haben? Hier ist ein Beispiel aus einem Datensatz, mit dem ich gerade arbeite. Ich betrachte eine Verhaltensintervention in Schulen, die mit validierten psychologischen Fragebögen (die Likert-Daten produzieren) gemessen wurde. Fast alle meine Variablen zeigen statistisch signifikante Veränderungen, was vielleicht nicht verwunderlich ist, da ich eine große Stichprobe habe (n = ~ 250). Für einige Variablen gilt jedoch Cohens dist recht winzig, etwa 0,12, was darauf hinweist, dass es sich zwar zweifellos um eine Änderung handelt, es sich jedoch möglicherweise nicht um eine klinisch wichtige Änderung handelt. Daher ist es wichtig, zu diskutieren und zu interpretieren, was in den Daten vor sich geht. Dieses Konzept ist in den Psychologie- und Gesundheitswissenschaften weit verbreitet, wo die Praktiker (oder in Ihrem Fall die Schulen) den tatsächlichen klinischen Nutzen von Behandlungen (oder was auch immer sie experimentieren) berücksichtigen müssen. Cohens d hilft uns bei der Beantwortung von Fragen, ob es sich wirklich lohnt, eine Intervention durchzuführen (unabhängig von den p-Werten). In den medizinischen Wissenschaften berücksichtigen sie auch gerne die NNT und bewerten diese anhand der Schwere des betreffenden Zustands. Schauen Sie sich diese großartige Ressource von @krstoffr an: http://rpsychologist.com/d3/cohend/
quelle
quelle
Tatsächlich sind p-Werte nun auch endgültig „aus der Mode“: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Das Testen der Signifikanz von Nullhypothesen (NHST) liefert kaum mehr als eine Beschreibung Ihrer Stichprobengröße. (*) Jeder experimentelle Eingriff hat eine gewisse Auswirkung, dh, die einfache Nullhypothese, dass keine Auswirkung vorliegt, ist im engeren Sinne immer falsch . Ein "nicht signifikanter" Test bedeutet daher einfach, dass Ihre Stichprobengröße nicht groß genug war. Ein "signifikanter" Test bedeutet, dass Sie genug Daten gesammelt haben, um etwas zu "finden".
Die "Effektgröße" stellt einen Versuch dar, dies zu beheben, indem ein Maß in der natürlichen Größenordnung des Problems eingeführt wird. In der Medizin, in der Behandlungen immer einen gewissen Effekt haben (auch wenn es sich um einen Placebo-Effekt handelt), wird der Begriff eines „klinisch bedeutsamen Effekts“ eingeführt, um der 50% igen Wahrscheinlichkeit zuvor vorzubeugen, dass eine „Behandlung“ einen „a“ hat ( statistisch signifikanter positiver Effekt (jedoch winzig) in einer beliebig großen Studie.
Wenn ich die Natur Ihrer Arbeit verstehe, Klarinettist, dann besteht ihr legitimes Ziel letztendlich darin , Maßnahmen / Interventionen zu informieren , die die Bildung in den Schulen unter Ihrer Kontrolle verbessern. Daher handelt es sich bei Ihrer Einstellung um eine entscheidungstheoretische Einstellung , und Bayes'sche Methoden sind der am besten geeignete (und eindeutig kohärente [1] ) Ansatz.
Tatsächlich ist der beste Weg, um frequentistische Methoden zu verstehen, die Annäherung an die Bayes'schen Methoden . Die geschätzte Effektgröße kann so verstanden werden, dass ein Maß für die Zentralität der Bayes'schen posterioren Verteilung angestrebt wird, während der p-Wert so verstanden werden kann, dass ein Schwanz dieses posterioren gemessen werden soll. Somit zusammen enthalten diese beiden Größen einige grobe Kern der Bayes - posterior , die auf Ihrem Problem die natürliche Eingabe in eine entscheidungstheoretische Perspektiven darstellt. (Alternativ kann ein frequentistisches Konfidenzintervall für die Effektgröße ebenfalls als ein glaubwürdiges Intervall verstanden werden .)
In den Bereichen Psychologie und Pädagogik sind die Bayes'schen Methoden tatsächlich recht beliebt. Ein Grund dafür ist, dass es einfach ist, "Konstrukte" als latente Variablen in Bayes'sche Modelle zu installieren. Vielleicht möchten Sie sich das Welpenbuch von John K. Kruschke , einem Psychologen, ansehen . Im Bildungsbereich (wo Schüler in Klassenräumen, Schulen, Distrikten usw. eingebettet sind) ist eine hierarchische Modellierung unvermeidlich. Bayesianische Modelle eignen sich auch hervorragend für die hierarchische Modellierung. In diesem Zusammenhang möchten Sie vielleicht Gelman & Hill [2] ausprobieren.
[1]: Robert, Christian P. Die Bayes'sche Wahl: Von entscheidungs-theoretischen Grundlagen zur rechnergestützten Implementierung. 2nd ed. Springer-Texte in der Statistik. New York: Springer, 2007.
[2]: Gelman, Andrew und Jennifer Hill. Datenanalyse mit Regression und mehrstufigen / hierarchischen Modellen. Analytische Methoden für die Sozialforschung. Cambridge; New York: Cambridge University Press, 2007.
Weitere Informationen zum Thema „Kohärenz“ unter dem Gesichtspunkt, dass man sich nicht unbedingt mit einem Bayes'schen Ziegel auf den Kopf schlagen muss, finden Sie in [3].
[3]: Robins, James und Larry Wasserman. "Konditionierung, Wahrscheinlichkeit und Kohärenz: Ein Überblick über einige grundlegende Konzepte." Journal of the American Statistical Association 95, No. 452 (1. Dezember 2000): 1340–46. doi: 10.1080 / 01621459.2000.10474344.
(*) In [4] geißelt Meehl NHST viel eleganter, aber nicht weniger aggressiv als ich:
[4]: Meehl, Paul E. „Theoretische Risiken und tabellarische Sternchen: Sir Karl, Sir Ronald und der langsame Fortschritt der weichen Psychologie.“ Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf
Und hier ist ein entsprechendes Zitat von Tukey: /stats//a/728/41404
quelle