Ich lese viele evolutionäre / ökologische wissenschaftliche Artikel, manchmal mit dem speziellen Ziel, herauszufinden, wie Statistiken außerhalb des Lehrbuchs "in der realen Welt" verwendet werden. Normalerweise nehme ich die Statistiken in Zeitungen als Evangelium und benutze sie, um beim statistischen Lernen zu helfen. Wenn es Jahre gedauert hat, eine Zeitung zu schreiben und eine strenge Peer-Review durchlaufen hat, dann werden die Statistiken doch wirklich solide sein? Aber in den letzten Tagen habe ich meine Vermutung in Frage gestellt und mich gefragt, wie oft die in wissenschaftlichen Arbeiten veröffentlichte statistische Analyse verdächtig ist. Insbesondere ist zu erwarten, dass diejenigen in Bereichen wie Ökologie und Evolution weniger Zeit mit dem Erlernen von Statistiken und mehr Zeit mit dem Erlernen ihrer Bereiche verbracht haben.
Wie oft finden Menschen in wissenschaftlichen Arbeiten Statistiken über verdächtige Personen?
quelle
Antworten:
Meine Erfahrung mit dem Lesen von Artikeln, die versuchen, Statistiken in einer Vielzahl von Bereichen anzuwenden (Politikwissenschaft, Wirtschaft, Psychologie, Medizin, Biologie, Finanzen, Versicherungsmathematik, Rechnungswesen, Optik, Astronomie und viele, viele andere), ist die Qualität von Die statistische Analyse kann irgendwo im Spektrum liegen, von exzellent und gut gemacht bis zu ungeheurem Unsinn. Ich habe in jedem der genannten Bereiche eine gute Analyse gesehen und in fast allen Bereichen eine ziemlich schlechte Analyse.
Einige Zeitschriften sind im Allgemeinen ziemlich gut, und andere ähneln eher dem Dartspiel mit verbundenen Augen. Die meisten davon sind möglicherweise nicht allzu weit vom Ziel entfernt, aber es gibt einige in der Wand, im Boden und an der Decke. Und vielleicht die Katze.
Ich habe nicht vor, Schuldige zu benennen, aber ich werde sagen, ich habe akademische Karrieren gesehen, die auf der fehlerhaften Verwendung von Statistiken aufbauen (dh in denen dieselben Fehler und Missverständnisse über mehr als ein Jahrzehnt hinweg Papier für Papier wiederholt wurden).
Mein Rat ist also , den Leser aufpassen zu lassen ; Vertrauen Sie nicht, dass die Redakteure und Gutachter wissen, was sie tun. Im Laufe der Zeit können Sie sich ein Bild davon machen, welche Autoren im Allgemeinen nicht allzu schockierend sind und welche besonders vorsichtig behandelt werden sollten. Möglicherweise haben Sie das Gefühl, dass einige Zeitschriften normalerweise einen sehr hohen Standard für ihre Statistiken haben.
Aber selbst ein normalerweise guter Autor kann einen Fehler machen, oder Schiedsrichter und Redakteure können Fehler, die sie normalerweise finden, nicht finden. Ein typisches gutes Tagebuch kann einen Heuler veröffentlichen.
[Manchmal werden Sie sogar sehen, dass wirklich schlechte Zeitungen Preise oder Auszeichnungen gewinnen ... was auch nicht viel für die Qualität der Leute aussagt, die den Preis beurteilen.]
Ich möchte nicht erraten, was für einen Bruchteil von "schlechten" Statistiken ich gesehen haben könnte (in verschiedenen Formen und in jeder Phase von der Definition der Frage, dem Design der Studie, der Datenerfassung, dem Datenmanagement ... bis hin zu ...) Analyse und Schlussfolgerungen), aber es ist bei weitem nicht klein genug, um mich wohl zu fühlen.
Ich könnte Beispiele nennen, aber ich denke nicht, dass dies das richtige Forum dafür ist. (Es wäre schön, wenn es ist ein gutes Forum für das, eigentlich, aber dann wieder, ist es wahrscheinlich sehr würde „politisiert“ ziemlich schnell, und bald nicht ihren Zweck dienen.)
Ich habe einige Zeit damit verbracht, mich in PLOS ONE umzuschauen ... und werde wieder nicht auf bestimmte Papiere verweisen. Einige Dinge, die mir aufgefallen sind: Es sieht so aus, als ob ein großer Teil der Papiere Statistiken enthält, wahrscheinlich mehr als die Hälfte mit Hypothesentests. Die Hauptgefahren scheinen viele Tests zu sein, entweder mit einem hohen Wert von jeweils 0,05 (was nicht automatisch ein Problem ist, solange wir verstehen, dass einige wirklich winzige Effekte zufällig als signifikant auftauchen können) oder ein unglaublicher Wert Niedriges individuelles Signifikanzniveau, das tendenziell zu geringer Leistung führt. Ich habe auch einige Fälle gesehen, in denen etwa ein halbes Dutzend verschiedene Tests durchgeführt wurdenα wurden anscheinend angewendet, um genau die gleiche Frage zu lösen. Das scheint mir eine allgemein schlechte Idee zu sein. Insgesamt war der Standard über ein paar Dutzend Papiere ziemlich gut, aber in der Vergangenheit habe ich dort ein absolut schreckliches Papier gesehen.
[Vielleicht könnte ich mich indirekt nur einem Beispiel hingeben. Bei dieser Frage geht es darum, dass jemand etwas ziemlich zweifelhaftes tut. Es ist alles andere als das Schlimmste, was ich je gesehen habe.]
Andererseits sehe ich auch (noch häufiger) Fälle, in denen Menschen gezwungen sind, durch alle Arten von unnötigen Reifen zu springen, um ihre Analyse zu akzeptieren. Völlig vernünftige Dinge werden nicht akzeptiert, weil es einen "richtigen" Weg gibt, Dinge gemäß einem Rezensenten oder einem Herausgeber oder einem Vorgesetzten oder nur in der unausgesprochenen Kultur eines bestimmten Bereichs zu tun.
quelle
Ich respektiere die Haltung von @ Glen_b, hier richtig zu antworten (und beabsichtige auf keinen Fall, davon abzulenken), aber ich kann nicht widerstehen, auf ein besonders unterhaltsames Beispiel hinzuweisen, das in der Nähe meines Hauses liegt. Ich empfehle Wagenmakers, Wetzels, Boorsboom und Van Der Maas (2011) . Ich zitierte dies in einem verwandten Beitrag zur Beta-SE der Kognitionswissenschaften ( Wie erklärt die Kognitionswissenschaft entfernte Intentionalität und Gehirnfunktion bei Empfängern? ), In dem ein weiteres Beispiel für "einen Pfeil, der die Katze schlägt" betrachtet wird. Der Artikel von Wagenmakers und Kollegen kommentiert jedoch direkt einen echten "Heuler": Er wurde in JPSP (einer der größten Fachzeitschriften für Psychologie) veröffentlicht) vor einigen Jahren. Sie sprechen sich auch allgemein für die Bayes'sche Analyse aus und sagen:
Ich brauche Ihnen wahrscheinlich nicht zu sagen, dass dies dem Chor nicht gerade als Predigt gedient hat. FWIW, es gibt auch eine Widerlegung (wie es immer zwischen Bayesianern und Frequentisten zu sein scheint; ( Bem, Utts, & Johnson, 2011 ) , aber ich habe das Gefühl, dass es die Debatte nicht gerade schachmatt machte .
Die Psychologie als wissenschaftliche Gemeinschaft hat in letzter Zeit einen Replikationsschub erlebt, was teilweise auf diese und andere hochkarätige methodologische Mängel zurückzuführen ist. Andere Kommentare weisen auf Fälle hin , die den früheren Voodoo-Korrelationen in der Sozialen Neurowissenschaft ähnelten (wie ist das für politisch inkorrektes Übrigens? ). Das hat auch seine Widerlegung angezogen , die Sie für weitere Debatten über höchst umstrittene Praktiken nachlesen können.
Weitere Informationen zu (entpersonalisierteren) Ausgaben von (Pseudo-) Statistikern, die sich schlecht benehmen, finden Sie in unserer derzeit achthäufigsten Frage zum Lebenslauf mit einem anderen (zugegebenermaßen) politisch inkorrekten Titel: " Was sind häufige statistische Sünden? " @MikeLawrence führt seine Inspiration auf sein paralleles Studium der Psychologie und Statistik zurück. Es ist einer meiner persönlichen Favoriten und seine Antworten sind sehr nützlich, um die unzähligen Fallstricke da draußen selbst zu vermeiden.
Persönlich verbringe ich einen Großteil meiner letzten fünf Monate hier, vor allem, weil es erstaunlich schwierig ist, fundierte Statistiken zu bestimmten datenanalytischen Fragen zu erhalten. Ehrlich gesagt ist Peer Review oft überhaupt nicht sehr streng, insbesondere im Hinblick auf die statistische Überprüfung der Forschung in jüngeren Wissenschaften mit komplexen Fragen und vielen epistemischen Komplikationen. Aus diesem Grund habe ich das Bedürfnis verspürt, die Methoden in meiner eigenen Arbeit eigenverantwortlich zu polieren.
Während ich meine Dissertationsforschung präsentierte , bekam ich ein Gefühl dafür, wie wichtig die persönliche Verantwortung für die statistische Kontrolle ist. Zwei außergewöhnliche Psychologen an meiner Alma Mater warfen mir vor, dass ich eine der grundlegendsten Sünden in meinen Interpretationen von Korrelationen begangen habe . Ich hatte darüber nachgedacht und schon einige Male Vorlesungen darüber gehalten, aber ich war immer noch dort und wurde darauf aufmerksam gemacht (früh, Gott sei Dank). Ich war dort, weil die Forschung, die ich gerade überprüfte und replizierte, dort war! Daher habe ich meiner Dissertation mehrere Abschnitte hinzugefügt Das rief die anderen Forscher dazu auf, Kausalität aus quasi-experimentellen Längsschnittstudien (manchmal sogar aus Querschnittskorrelationen) anzunehmen und alternative Erklärungen vorzeitig zu ignorieren.
Meine Dissertation wurde von meinem Komitee, zu dem auch ein anderer außergewöhnlicher Psychometriker und der baldige Präsident von SPSP (das JPSP veröffentlicht) gehörten, ohne Änderungen angenommen. Ich habe es seitdem geschafft, mehrere Kaninchenlöcher in meine eigenen Methoden zu stecken , obwohl ich den externen Überprüfungsprozess mit absolut guten Überprüfern bestanden habe. Ich bin jetzt in die Tiefe der Statistiken geraten, als ich versuchte, Methoden zu entwickeln, die für die prädiktive Modellierung von Likert-Bewertungen wie SEM, IRT und nichtparametrische Analysen besser geeignet sind (siehe Regressionstests nach Dimensionsreduktion)). Ich entscheide mich freiwillig dafür, Jahre auf einem Papier zu verbringen, das ich wahrscheinlich einfach so veröffentlichen könnte, wie es ist ... Ich glaube, ich habe noch eine Simulationsstudie vor mir, bevor ich gewissenhaft vorgehen kann.
Ich betone jedoch, dass dies optional ist - vielleicht sogar übereifrig und ein kostspieliger Luxus inmitten der Publish-or-Perish-Kultur, bei der in den frühen Karriereberichten häufig Quantität vor Qualität steht. Die fehlerhafte Anwendung parametrischer Modelle für kontinuierliche Daten auf vermutungswidrige Verteilungen von Ordnungsdaten ist in meinem Fachgebiet allzu häufig, ebenso wie die fehlerhafte Interpretation und Darstellung statistischer Signifikanz (siehe Eingrenzung von Sichten auf p-Werte ). Ich könnte (kurzfristig) total durchkommen ... und es ist gar nicht so schwer, es besser zu machen. Ich schätze, ich habe in den letzten Jahren einige erstaunliche Fortschritte bei R-Programmen gemacht, um das zu verdanken! Wir hoffen, dass sich die Zeiten ändern.
Referenzen
· Bem, DJ, Utts, J. & Johnson, WO (2011). Müssen Psychologen die Art und Weise ändern, in der sie ihre Daten analysieren? Zeitschrift für Persönlichkeits- und Sozialpsychologie, 101 (4), 716–719. Abgerufen von http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P. & Pashler, H. (2009). Rätselhaft hohe Korrelationen in fMRI-Studien zu Emotion, Persönlichkeit und sozialer Kognition. Perspectives on Psychological Science, 4 (3), 274–290. Abgerufen von http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. & Van der Maas, H. (2011). Warum Psychologen die Art und Weise ändern müssen, in der sie ihre Daten analysieren: Der Fall von psi. Zeitschrift für Persönlichkeits- und Sozialpsychologie, 100 , 426–432. Abgerufen von http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .
quelle
Ich erinnere mich, dass einige Studenten der Sozialwissenschaften an der Universität zu verschiedenen Anlässen (einer von ihnen erhielt die erste) fragten, wie sie einen Durchschnitt für ihr Projekt ermitteln sollten, das eine Handvoll Datenpunkte hatte. (Sie hatten also keine Probleme mit der Verwendung von Software, nur mit dem Konzept, wie man mit einem Taschenrechner rechnet.)
Sie schauen mich nur verständnislos an, wenn ich sie frage, welchen Durchschnitt sie wollen.
Dennoch hatten sie alle das Bedürfnis, einige Statistiken in ihren Bericht aufzunehmen, da dies erledigt war. Ich gehe davon aus, dass sie alle 101 Artikel gelesen haben, die Statistiken enthielten, ohne darüber nachzudenken, was die Statistiken überhaupt bedeuteten.
Es ist klar, dass der Forscher, der sie über die 3 Jahre unterrichtet hat, sich nicht um die Richtigkeit der Statistiken gekümmert hat, um Verständnis für die Schüler zu schaffen.
(Ich war zu der Zeit ein Computer-Sci-Student. Ich poste dies als Antwort, da es für einen Kommentar etwas lang ist.)
quelle
Als eine traurig unvollständige Liste finde ich Statistiken, die am häufigsten zutreffen, in 1) Physikpapieren, gefolgt von 2) statistischen Papieren und am miserabelsten in 3) medizinischen Papieren. Die Gründe hierfür sind einfach und hängen mit der Vollständigkeit der Anforderungen zusammen, die an das prototypische Modell in jedem Bereich gestellt werden.
In Physikpapieren müssen Gleichungen und angewandte Statistiken ausgewogene Einheiten berücksichtigen und das häufigste Auftreten von Kausalzusammenhängen sowie Tests mit physikalischen Standards aufweisen.
In der Statistik werden 1) Einheiten und Kausalität manchmal ignoriert, die Annahmen sind manchmal heuristisch, und physikalische Tests werden zu oft ignoriert, aber Gleichheit (oder Ungleichheit), dh Logik, wird im Allgemeinen entlang eines induktiven Pfades beibehalten, für den letztere keine Korrektur durchführen können unphysische Annahmen.
In der Medizin werden normalerweise Einheiten ignoriert, die Gleichungen und Annahmen sind normalerweise heuristisch, normalerweise ungetestet und häufig falsch.
Natürlich hat ein Gebiet wie die statistische Mechanik mit größerer Wahrscheinlichkeit überprüfbare Annahmen als beispielsweise die Wirtschaftlichkeit, und dies spiegelt nicht die Talente der potenziellen Autoren auf diesen Gebieten wider. Es hängt mehr damit zusammen, wie viel von dem, was getan wird, tatsächlich testbar ist und wie viel in den einzelnen Bereichen in der Vergangenheit getestet wurde.
quelle
Jedes Papier, das die Null-Hypothese widerlegt, verwendet wertlose Statistiken (die überwiegende Mehrheit von dem, was ich gesehen habe). Dieser Vorgang kann keine Informationen liefern, die nicht bereits durch die Effektgröße bereitgestellt wurden. Ferner sagt es nichts darüber aus, ob ein signifikantes Ergebnis tatsächlich auf die vom Forscher theoretisierte Ursache zurückzuführen ist. Dies erfordert eine sorgfältige Untersuchung der Daten auf Anzeichen von Verwechslungen. In den meisten Fällen werden die stärksten Beweise, sofern vorhanden, sogar als "Ausreißer" verworfen.
Ich bin mit Evolution / Ökologie nicht so vertraut, aber im Fall von psychologischer und medizinischer Forschung würde ich das Niveau des statistischen Verständnisses als "stark verwirrt" und "ein Hindernis für den wissenschaftlichen Fortschritt" bezeichnen. Die Leute sollen etwas widerlegen, das von ihrer Theorie vorhergesagt wird, und nicht das Gegenteil davon (Null Unterschied / Effekt).
Es wurden Tausende von Artikeln zu diesem Thema verfasst. NHST-Hybrid-Kontroverse nachschlagen.
Edit: Und ich meine, die Nullhypothese Signifikanztest hat ein Maximum von Null wissenschaftlichen Wert. Diese Person trifft den Nagel auf den Kopf:
http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/
Auch: Paul Meehl. 1967. Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon
Edit 3:
Wenn jemand Argumente für die Nützlichkeit von Strohmann-NHST hat, für die kein Denken erforderlich ist, ist "die Hypothese, dass die Erwärmungsrate die gleiche ist, abzulehnen, aber NICHT zu verstehen, dass die Erwärmungsrate nicht die gleiche ist", eine Rationalität Aussage, ich würde mich über Ihre Kommentare freuen.
Bearbeiten 4:
Was meinte Fisher mit dem folgenden Zitat? Schlägt es vor, dass er dachte "Wenn Modell / Theorie A mit den Daten nicht kompatibel ist, können wir sagen, dass A falsch ist, aber nichts darüber, ob A nicht wahr ist"?
Karl Pearson und RA Fisher über statistische Tests: Ein Austausch aus der Natur von 1935
Ging er davon aus, dass die Leute nur versuchen würden, plausible Hypothesen und nicht Strohmänner zu entkräften? Oder liege ich falsch?
quelle