Sind die meisten veröffentlichten Korrelationen in den Sozialwissenschaften nicht vertrauenswürdig und was ist dagegen zu tun? [geschlossen]

9

Trotz der wichtigen, aber klatschenden "gotcha" -istischen Bemühungen von Einzelpersonen, die Praktiken räuberischer Zeitschriften aufzudecken , droht eine größere und grundlegendere Bedrohung im Schatten der sozialwissenschaftlichen Forschung ( obwohl es sicherlich mehrere Probleme gibt, mit denen sich Forscher befassen müssen ). Um auf den Punkt zu kommen, können wir nach einer Ansicht möglicherweise nicht auf Korrelationskoeffizienten vertrauen , die aus Stichproben kleiner als 250 abgeleitet wurden .

Es würde schwer fallen, einen Test zu finden, auf den man sich mehr verlassen kann, um auf das Vorhandensein, die Richtung und die Stärke der Assoziation zwischen sozialwissenschaftlichen Maßnahmen als auf den vertrauenswürdigen Korrelationskoeffizienten zu schließen. Es wäre jedoch nicht schwer, von Experten begutachtete Berichte zu finden, die starke Aussagen über die Beziehung zwischen zwei Konstrukten auf der Grundlage von Korrelationskoeffizienten machen, die aus Daten mit weniger als 250 Fällen berechnet wurden.

Wie sollten wir angesichts der aktuellen Replikationskrise in den Sozialwissenschaften (siehe den zweiten Link oben) diesen Bericht über die Stabilisierung von Korrelationskoeffizienten nur bei großen Stichproben (zumindest nach einigen sozialwissenschaftlichen Feldstandards) betrachten? Ist es ein weiterer Riss in der Wand der von Experten geprüften sozialwissenschaftlichen Forschung oder ist es eine relativ triviale Angelegenheit, die in ihrer Präsentation übertrieben wurde?

Da es wahrscheinlich keine einzige richtige Antwort auf diese Frage gibt, hoffe ich, stattdessen einen Thread zu generieren, in dem Ressourcen zu dieser Frage geteilt, nachdenklich überlegt und diskutiert werden können (natürlich höflich und respektvoll).

Matt Barstead
quelle
Ich erkenne, dass dies eine meinungsbasierte Frage ist und umgeht die allgemeinen Richtlinien der Website. Tatsache ist, dass eine breite Palette von Personen auf diese Website kommt, um Einblicke in die Statistik zu erhalten, einschließlich eines besseren Verständnisses der Fallstricke, die mit den Techniken verbunden sind, die sie anwenden möchten. Ich hoffe, dass ich mit dieser umfassenden Frage bei diesem zugegebenermaßen vagen Ziel helfen kann. Zu lernen, wie man einen Standardfehler berechnet, ist eine Sache. Zu lernen, was es bedeutet, es anzuwenden, wenn man eine vermeintlich evidenzbasierte Entscheidung trifft, ist eine andere.
Matt Barstead
Was noch schlimmer ist, ist, wie diese "obligatorischen 250" Fälle ausgewählt werden. Ich sehe immer öfter, dass jemand auf einer Social-Media-Site ein Plädoyer für das Ausfüllen einer Umfrage veröffentlicht, die er für eine Arbeit oder eine Abschlussarbeit benötigt. Vervollständigen Sie das Thema der Umfrage. Völlig unbewusst, wie sich Menschen selbst auswählen. Auf Wiedersehen mit Zufallsstichproben, da die Menschen in der sozialen Gruppe einer Person nicht zufällig sind, gehören sie normalerweise ähnlichen ideologischen / politischen / wirtschaftlichen Gruppen an und wählen sich selbst aus, basierend auf ihrem Interesse an dem Thema. Stichwort "90% sind für X" , nur weil diejenigen, die apathisch sind, sich nicht freiwillig gemeldet haben.
vsz

Antworten:

7

Das Hinzufügen von Konfidenzintervallen für die geschätzten wahren Korrelationskoeffizienten wäre ein kleiner (und sehr einfacher) erster Schritt in die richtige Richtung. Seine Breite gibt Ihnen sofort einen Eindruck von der Genauigkeit Ihrer Stichprobenkorrelation und ermöglicht es gleichzeitig dem Verfasser und auch dem Publikum, nützliche Hypothesen zu testen . Was mich immer verwirrte, wenn ich mit sozialwissenschaftlichen Statistikern sprach, dass ein absoluter Stichproben-Korrelationskoeffizient über (oder eine andere Grenze) als sinnvoll angesehen wurde. Gleichzeitig testeten sie die ArbeitshypotheseρL=0.3ρ0. Dies ist unwichtig. Warum sollte ein sehr kleiner Populationskorrelationskoeffizient plötzlich als sinnvoll angesehen werden? Die "richtige" Arbeitshypothese wäre . Mit einem Konfidenzintervall für können Hypothesen wie diese leicht getestet werden: Überprüfen Sie einfach, ob das Intervall vollständig über (oder unter ) liegt, und Sie wissen, ob Sie selbst in der Population.|ρ|>LρLL

Nur ein Konfidenzintervall hinzuzufügen und aussagekräftige Tests zu verwenden, löst natürlich nicht allzu viele Probleme (wie schlechte Stichprobenentwürfe, ausgelassene Berücksichtigung von Störfaktoren usw.). Aber es ist grundsätzlich kostenlos. Ich denke sogar SPSS kann sie berechnen!

Michael M.
quelle
1
In der Tat, wenn SPSS das kann ... Im Ernst, ich denke, die Idee, einen Schwerpunkt auf CIs zu legen, ist sehr sinnvoll. Es würde auch bei metaanalytischen Bemühungen helfen. Außerdem scheint es mir, als ob die Berichterstattung über CIs anstelle von p-Werten eine häufigere Annäherung an einen Bayes'schen Ansatz darstellt. Ich habe immer gedacht, dass Bayes'sche Modelle dazu neigen, sich ehrlicher zu "fühlen", indem sie sich darauf konzentrieren, eine Verteilung von Schätzungen zu modellieren, anstatt die maximal wahrscheinliche Schätzung für einen Populationsparameter zu finden, der aus einer einzelnen Stichprobe abgeleitet wird.
Matt Barstead
4

Wie Michael M feststellt , kann die Vertrauenswürdigkeit gemeldeter Korrelationen - oder anderer Schätzungen - anhand von Konfidenzintervallen bewertet werden. Bis zu einem gewissen Grad. CIs werden zu eng sein, wenn Modelle nach der Datenerfassung ausgewählt wurden, was meiner Schätzung nach in 95% der Fälle in den Sozialwissenschaften vorkommt (was ich ehrlich gesagt als eine vollständige Vermutung von mir bezeichnen werde).

Das Mittel ist zweifach:

  • Wir sprechen von einer " ". Fehlgeschlagene Replikationen weisen uns daher darauf hin, dass der ursprüngliche Effekt wahrscheinlich nur zufälliges Rauschen war. Wir müssen mehr Replikationen durchführen (und finanzieren, schreiben, einreichen und akzeptieren). Replikationsstudien gewinnen langsam an Ansehen, und das ist gut so.

  • Das zweite Mittel ist natürlich die . Wenn wir viele gemeldete Korrelationen ähnlicher Daten haben, selbst wenn jede einzelne von ihnen ein niedriges , können wir die Informationen bündeln und etwas lernen. Im Idealfall können wir dabei sogar feststellen .n

Stephan Kolassa
quelle
@ Stephen, Frage: Was bedeutet "Replikation", sollte man dieselben oder unterschiedliche Daten verwenden, um die ursprüngliche Studie zu replizieren? Gibt es einen Unterschied zwischen Replikation und Wiederholbarkeit?
Prognostiker
Ich denke, in den letzten Jahren hat sich die Replizierbarkeit wirklich verändert. Ein bevorstehendes Kapitel bietet einige Ratschläge für Emotionsforscher, die sich meiner Meinung nach gut auf eine Reihe von Teilbereichen der Verhaltensforschung übertragen lassen.
Matt Barstead
@forecaster: Eine Replikation sollte mit unabhängig gesammelten neuen Daten durchgeführt werden, sonst lernen Sie nichts Neues . "Wiederholbarkeit" ist kein Begriff, auf den ich gestoßen bin. Natürlich gibt es immer die Frage , ob die ursprüngliche Veröffentlichung detailliert genug ist , damit jemand anders kann tatsächlich die Analyse wiederholen.
Stephan Kolassa