Statistiken in wissenschaftlichen Arbeiten veröffentlicht

44

Ich lese viele evolutionäre / ökologische wissenschaftliche Artikel, manchmal mit dem speziellen Ziel, herauszufinden, wie Statistiken außerhalb des Lehrbuchs "in der realen Welt" verwendet werden. Normalerweise nehme ich die Statistiken in Zeitungen als Evangelium und benutze sie, um beim statistischen Lernen zu helfen. Wenn es Jahre gedauert hat, eine Zeitung zu schreiben und eine strenge Peer-Review durchlaufen hat, dann werden die Statistiken doch wirklich solide sein? Aber in den letzten Tagen habe ich meine Vermutung in Frage gestellt und mich gefragt, wie oft die in wissenschaftlichen Arbeiten veröffentlichte statistische Analyse verdächtig ist. Insbesondere ist zu erwarten, dass diejenigen in Bereichen wie Ökologie und Evolution weniger Zeit mit dem Erlernen von Statistiken und mehr Zeit mit dem Erlernen ihrer Bereiche verbracht haben.

Wie oft finden Menschen in wissenschaftlichen Arbeiten Statistiken über verdächtige Personen?

Luciano
quelle
18
Rezensenten sind oft Leute, die nicht viel mehr über Statistiken wissen als diejenigen, die das Papier schreiben. Daher ist es oft einfach, schlechte Statistiken zu veröffentlichen.
Behacad
9
Die Veröffentlichung eines Papers ist der erste und nicht der letzte Schritt zur Akzeptanz in der Wissenschaft. Die meisten veröffentlichten Artikel weisen in einigen Bereichen erhebliche Mängel auf, die Verwendung von Statistiken ist keine Ausnahme.
Dikran Beuteltier
3
Ihre Annahme, dass Papiere "Jahre brauchen, um zu schreiben", ist weit von der Marke entfernt. Das Sammeln von Daten kann viel Zeit in Anspruch nehmen, aber das Analysieren und Schreiben von Daten dauert in der Regel Wochen und nicht Jahre.
David Richerby
2
Es ist heutzutage bekannt, dass Statistiken in vielen Psychologie- und Medizinartikeln zumindest fragwürdig sind, schlicht falsch oder nicht einmal so oft. Die arme Verwendung von p-Werten und NHST ist ein prominentes Beispiel für die Probleme, siehe diesen Hinweis .
Quarz

Antworten:

38

Wenn es Jahre gedauert hat, eine Zeitung zu schreiben und eine strenge Peer-Review durchlaufen hat, dann werden die Statistiken doch wirklich solide sein?

Meine Erfahrung mit dem Lesen von Artikeln, die versuchen, Statistiken in einer Vielzahl von Bereichen anzuwenden (Politikwissenschaft, Wirtschaft, Psychologie, Medizin, Biologie, Finanzen, Versicherungsmathematik, Rechnungswesen, Optik, Astronomie und viele, viele andere), ist die Qualität von Die statistische Analyse kann irgendwo im Spektrum liegen, von exzellent und gut gemacht bis zu ungeheurem Unsinn. Ich habe in jedem der genannten Bereiche eine gute Analyse gesehen und in fast allen Bereichen eine ziemlich schlechte Analyse.

Einige Zeitschriften sind im Allgemeinen ziemlich gut, und andere ähneln eher dem Dartspiel mit verbundenen Augen. Die meisten davon sind möglicherweise nicht allzu weit vom Ziel entfernt, aber es gibt einige in der Wand, im Boden und an der Decke. Und vielleicht die Katze.

Ich habe nicht vor, Schuldige zu benennen, aber ich werde sagen, ich habe akademische Karrieren gesehen, die auf der fehlerhaften Verwendung von Statistiken aufbauen (dh in denen dieselben Fehler und Missverständnisse über mehr als ein Jahrzehnt hinweg Papier für Papier wiederholt wurden).

Mein Rat ist also , den Leser aufpassen zu lassen ; Vertrauen Sie nicht, dass die Redakteure und Gutachter wissen, was sie tun. Im Laufe der Zeit können Sie sich ein Bild davon machen, welche Autoren im Allgemeinen nicht allzu schockierend sind und welche besonders vorsichtig behandelt werden sollten. Möglicherweise haben Sie das Gefühl, dass einige Zeitschriften normalerweise einen sehr hohen Standard für ihre Statistiken haben.

Aber selbst ein normalerweise guter Autor kann einen Fehler machen, oder Schiedsrichter und Redakteure können Fehler, die sie normalerweise finden, nicht finden. Ein typisches gutes Tagebuch kann einen Heuler veröffentlichen.

[Manchmal werden Sie sogar sehen, dass wirklich schlechte Zeitungen Preise oder Auszeichnungen gewinnen ... was auch nicht viel für die Qualität der Leute aussagt, die den Preis beurteilen.]

Ich möchte nicht erraten, was für einen Bruchteil von "schlechten" Statistiken ich gesehen haben könnte (in verschiedenen Formen und in jeder Phase von der Definition der Frage, dem Design der Studie, der Datenerfassung, dem Datenmanagement ... bis hin zu ...) Analyse und Schlussfolgerungen), aber es ist bei weitem nicht klein genug, um mich wohl zu fühlen.

Ich könnte Beispiele nennen, aber ich denke nicht, dass dies das richtige Forum dafür ist. (Es wäre schön, wenn es ist ein gutes Forum für das, eigentlich, aber dann wieder, ist es wahrscheinlich sehr würde „politisiert“ ziemlich schnell, und bald nicht ihren Zweck dienen.)

Ich habe einige Zeit damit verbracht, mich in PLOS ONE umzuschauen ... und werde wieder nicht auf bestimmte Papiere verweisen. Einige Dinge, die mir aufgefallen sind: Es sieht so aus, als ob ein großer Teil der Papiere Statistiken enthält, wahrscheinlich mehr als die Hälfte mit Hypothesentests. Die Hauptgefahren scheinen viele Tests zu sein, entweder mit einem hohen Wert von jeweils 0,05 (was nicht automatisch ein Problem ist, solange wir verstehen, dass einige wirklich winzige Effekte zufällig als signifikant auftauchen können) oder ein unglaublicher Wert Niedriges individuelles Signifikanzniveau, das tendenziell zu geringer Leistung führt. Ich habe auch einige Fälle gesehen, in denen etwa ein halbes Dutzend verschiedene Tests durchgeführt wurdenαwurden anscheinend angewendet, um genau die gleiche Frage zu lösen. Das scheint mir eine allgemein schlechte Idee zu sein. Insgesamt war der Standard über ein paar Dutzend Papiere ziemlich gut, aber in der Vergangenheit habe ich dort ein absolut schreckliches Papier gesehen.

[Vielleicht könnte ich mich indirekt nur einem Beispiel hingeben. Bei dieser Frage geht es darum, dass jemand etwas ziemlich zweifelhaftes tut. Es ist alles andere als das Schlimmste, was ich je gesehen habe.]

Andererseits sehe ich auch (noch häufiger) Fälle, in denen Menschen gezwungen sind, durch alle Arten von unnötigen Reifen zu springen, um ihre Analyse zu akzeptieren. Völlig vernünftige Dinge werden nicht akzeptiert, weil es einen "richtigen" Weg gibt, Dinge gemäß einem Rezensenten oder einem Herausgeber oder einem Vorgesetzten oder nur in der unausgesprochenen Kultur eines bestimmten Bereichs zu tun.

Glen_b
quelle
2
" Vorbehalt Lector ", angesichts der zunehmenden Anzahl von Open-Access-Zeitschriften?
Scortchi
1
@scortchi Ich habe mich entschlossen, das Problem ganz zu vermeiden, indem ich einfach auf Englisch schrieb. Es ist eine Verbesserung.
Glen_b
10
Ohne die Nennung bestimmter Schuldiger, denke ich, dass faculty.vassar.edu/abbaird/about/publications/pdfs/… eine Erwähnung verdient. Um den Missbrauch von Statistiken auf ihrem Gebiet zu belegen, verwendeten sie ein weit verbreitetes statistisches Protokoll, um die Ergebnisse eines fMRI-Scans eines toten Lachses zu analysieren. Sie fanden "statistisch signifikante" Gehirnaktivität. statisticsdonewrong.com macht auch interessante Lektüre.
James_pic
1
@James_pic, musste diesen Kommentar für den Link "statisticsdonewrong" +1 geben. Besonders interessant ist die Diskussion über den Basiszinssatz-Irrtum.
Dan Bryant
1
@KennyPeanuts: Weder - nur darauf hinweisend, dass heutzutage viele Lektoren nicht einmal indirekt emptores sind .
Scortchi
16

Ich respektiere die Haltung von @ Glen_b, hier richtig zu antworten (und beabsichtige auf keinen Fall, davon abzulenken), aber ich kann nicht widerstehen, auf ein besonders unterhaltsames Beispiel hinzuweisen, das in der Nähe meines Hauses liegt. Ich empfehle Wagenmakers, Wetzels, Boorsboom und Van Der Maas (2011) . Ich zitierte dies in einem verwandten Beitrag zur Beta-SE der Kognitionswissenschaften ( Wie erklärt die Kognitionswissenschaft entfernte Intentionalität und Gehirnfunktion bei Empfängern? ), In dem ein weiteres Beispiel für "einen Pfeil, der die Katze schlägt" betrachtet wird. Der Artikel von Wagenmakers und Kollegen kommentiert jedoch direkt einen echten "Heuler": Er wurde in JPSP (einer der größten Fachzeitschriften für Psychologie) veröffentlicht) vor einigen Jahren. Sie sprechen sich auch allgemein für die Bayes'sche Analyse aus und sagen:

Um ein skeptisches Publikum von einer kontroversen Behauptung zu überzeugen, muss man streng bestätigende Studien durchführen und die Ergebnisse mit statistischen Tests analysieren, die eher konservativ als liberal sind.

Ich brauche Ihnen wahrscheinlich nicht zu sagen, dass dies dem Chor nicht gerade als Predigt gedient hat. FWIW, es gibt auch eine Widerlegung (wie es immer zwischen Bayesianern und Frequentisten zu sein scheint; ( Bem, Utts, & Johnson, 2011 ) , aber ich habe das Gefühl, dass es die Debatte nicht gerade schachmatt machte .

Die Psychologie als wissenschaftliche Gemeinschaft hat in letzter Zeit einen Replikationsschub erlebt, was teilweise auf diese und andere hochkarätige methodologische Mängel zurückzuführen ist. Andere Kommentare weisen auf Fälle hin , die den früheren Voodoo-Korrelationen in der Sozialen Neurowissenschaft ähnelten (wie ist das für politisch inkorrektes Übrigens? ). Das hat auch seine Widerlegung angezogen , die Sie für weitere Debatten über höchst umstrittene Praktiken nachlesen können.

Weitere Informationen zu (entpersonalisierteren) Ausgaben von (Pseudo-) Statistikern, die sich schlecht benehmen, finden Sie in unserer derzeit achthäufigsten Frage zum Lebenslauf mit einem anderen (zugegebenermaßen) politisch inkorrekten Titel: " Was sind häufige statistische Sünden? " @MikeLawrence führt seine Inspiration auf sein paralleles Studium der Psychologie und Statistik zurück. Es ist einer meiner persönlichen Favoriten und seine Antworten sind sehr nützlich, um die unzähligen Fallstricke da draußen selbst zu vermeiden.


Persönlich verbringe ich einen Großteil meiner letzten fünf Monate hier, vor allem, weil es erstaunlich schwierig ist, fundierte Statistiken zu bestimmten datenanalytischen Fragen zu erhalten. Ehrlich gesagt ist Peer Review oft überhaupt nicht sehr streng, insbesondere im Hinblick auf die statistische Überprüfung der Forschung in jüngeren Wissenschaften mit komplexen Fragen und vielen epistemischen Komplikationen. Aus diesem Grund habe ich das Bedürfnis verspürt, die Methoden in meiner eigenen Arbeit eigenverantwortlich zu polieren.

Während ich meine Dissertationsforschung präsentierte , bekam ich ein Gefühl dafür, wie wichtig die persönliche Verantwortung für die statistische Kontrolle ist. Zwei außergewöhnliche Psychologen an meiner Alma Mater warfen mir vor, dass ich eine der grundlegendsten Sünden in meinen Interpretationen von Korrelationen begangen habe . Ich hatte darüber nachgedacht und schon einige Male Vorlesungen darüber gehalten, aber ich war immer noch dort und wurde darauf aufmerksam gemacht (früh, Gott sei Dank). Ich war dort, weil die Forschung, die ich gerade überprüfte und replizierte, dort war! Daher habe ich meiner Dissertation mehrere Abschnitte hinzugefügt Das rief die anderen Forscher dazu auf, Kausalität aus quasi-experimentellen Längsschnittstudien (manchmal sogar aus Querschnittskorrelationen) anzunehmen und alternative Erklärungen vorzeitig zu ignorieren.

Meine Dissertation wurde von meinem Komitee, zu dem auch ein anderer außergewöhnlicher Psychometriker und der baldige Präsident von SPSP (das JPSP veröffentlicht) gehörten, ohne Änderungen angenommen. Ich habe es seitdem geschafft, mehrere Kaninchenlöcher in meine eigenen Methoden zu stecken , obwohl ich den externen Überprüfungsprozess mit absolut guten Überprüfern bestanden habe. Ich bin jetzt in die Tiefe der Statistiken geraten, als ich versuchte, Methoden zu entwickeln, die für die prädiktive Modellierung von Likert-Bewertungen wie SEM, IRT und nichtparametrische Analysen besser geeignet sind (siehe Regressionstests nach Dimensionsreduktion)). Ich entscheide mich freiwillig dafür, Jahre auf einem Papier zu verbringen, das ich wahrscheinlich einfach so veröffentlichen könnte, wie es ist ... Ich glaube, ich habe noch eine Simulationsstudie vor mir, bevor ich gewissenhaft vorgehen kann.

Ich betone jedoch, dass dies optional ist - vielleicht sogar übereifrig und ein kostspieliger Luxus inmitten der Publish-or-Perish-Kultur, bei der in den frühen Karriereberichten häufig Quantität vor Qualität steht. Die fehlerhafte Anwendung parametrischer Modelle für kontinuierliche Daten auf vermutungswidrige Verteilungen von Ordnungsdaten ist in meinem Fachgebiet allzu häufig, ebenso wie die fehlerhafte Interpretation und Darstellung statistischer Signifikanz (siehe Eingrenzung von Sichten auf p-Werte ). Ich könnte (kurzfristig) total durchkommen ... und es ist gar nicht so schwer, es besser zu machen. Ich schätze, ich habe in den letzten Jahren einige erstaunliche Fortschritte bei R-Programmen gemacht, um das zu verdanken! Wir hoffen, dass sich die Zeiten ändern.


Referenzen
· Bem, DJ, Utts, J. & Johnson, WO (2011). Müssen Psychologen die Art und Weise ändern, in der sie ihre Daten analysieren? Zeitschrift für Persönlichkeits- und Sozialpsychologie, 101 (4), 716–719. Abgerufen von http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P. & Pashler, H. (2009). Rätselhaft hohe Korrelationen in fMRI-Studien zu Emotion, Persönlichkeit und sozialer Kognition. Perspectives on Psychological Science, 4 (3), 274–290. Abgerufen von http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D. & Van der Maas, H. (2011). Warum Psychologen die Art und Weise ändern müssen, in der sie ihre Daten analysieren: Der Fall von psi. Zeitschrift für Persönlichkeits- und Sozialpsychologie, 100 , 426–432. Abgerufen von http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .

Nick Stauner
quelle
1
Wenn Ihnen "Feeling the Future" gefallen hat, dann mögen Sie vielleicht Witztum et al. (1994), "Equidistant Letter Sequences in the Book of Genesis", Statist. Sci. , 9 , 3 . Es zog die unvermeidlichen Spötter und Neinsager an: McKay et. al. (1999), "The Bible Code Puzzle", Statist. Sci. , 14 , 2 .
Scortchi
1
@Scortchi: danke für den Hinweis und amoeba: danke für den Zusammenhang. Ich sehe die Behauptung bei Witzum et al. dass McKay et al. Spott in ihrer Zusammenfassung, aber sie weisen sicher auf eine Menge anderer schwerwiegender Mängel hin. Gutes Zeug. "Während reale Daten die Erwartungen von Wissenschaftlern verwirren können, selbst wenn ihre Hypothesen korrekt sind, werden diejenigen, deren Experimente systematisch auf ihre Erwartungen ausgerichtet sind, seltener enttäuscht (Rosenthal, 1976)." Das ist einer der Typen, die mich aufgrund von Quasi-Experimenten auf kausale Folgerungen aufmerksam gemacht haben ... ein wirklich großartiger Psychologe. Bem hat aber auch einen gewissen Kredit.
Nick Stauner
2
+1 Hervorragender Beitrag. " Wie wichtig die persönliche Verantwortung für die statistische Kontrolle ist " - ich muss begrüßen. Letztendlich muss hier die Verantwortung liegen, so belastend dies auch für jemanden sein mag, der bereits versucht, seine Arbeit in einem Forschungsbereich zu erledigen, auf den er Statistiken anwenden möchte.
Glen_b
1
@ NickStauner: McKay et al. sagen in ihrer Zusammenfassung, dass Witzum et al. Behauptung "der hebräische Text des Buches Genesis kodiert Ereignisse, die erst Jahrtausende nach dem Verfassen des Textes auftraten". Leichte Übertreibung vielleicht, da es höchstens etwas mehr als zwei Jahrtausende zwischen dem Schreiben der Thora und dem Geburtsdatum des letzten Rabbiners von ihrer Liste ist, aber eine ausreichend gute Zusammenfassung. (Ich nehme an, Sie könnten auch die Arbeit von Witztum et al. Als Beweis für die jüngste Urheberschaft des Buches Genesis
ansehen
1
Ja, ich glaube, ich konnte Witzum et al. Nicht verstehen. gut genug, um zu erkennen, dass sie diese Behauptung aufstellten. Ich nehme einmal an, ich könnte dankbar sein für das stumpfe Schreiben der Autoren ... Es wirkt auf den ersten Blick etwas interessanter, weil die prominenteste Behauptung lautet, dass das Muster nicht zufällig ist, nicht das, was es angeblich sein soll zu ihrer Meinung nach. Es hätte interessantere Interpretationen einladen können, wenn McKay et al. sagen, dass es das tut ... zumindest bis McKay et al. Sie wurden aus methodischen Gründen abgeschossen, ohne dass es sich lohnt, sie zu interpretieren.
Nick Stauner
5

Ich erinnere mich, dass einige Studenten der Sozialwissenschaften an der Universität zu verschiedenen Anlässen (einer von ihnen erhielt die erste) fragten, wie sie einen Durchschnitt für ihr Projekt ermitteln sollten, das eine Handvoll Datenpunkte hatte. (Sie hatten also keine Probleme mit der Verwendung von Software, nur mit dem Konzept, wie man mit einem Taschenrechner rechnet.)

Sie schauen mich nur verständnislos an, wenn ich sie frage, welchen Durchschnitt sie wollen.

Dennoch hatten sie alle das Bedürfnis, einige Statistiken in ihren Bericht aufzunehmen, da dies erledigt war. Ich gehe davon aus, dass sie alle 101 Artikel gelesen haben, die Statistiken enthielten, ohne darüber nachzudenken, was die Statistiken überhaupt bedeuteten.

Es ist klar, dass der Forscher, der sie über die 3 Jahre unterrichtet hat, sich nicht um die Richtigkeit der Statistiken gekümmert hat, um Verständnis für die Schüler zu schaffen.

(Ich war zu der Zeit ein Computer-Sci-Student. Ich poste dies als Antwort, da es für einen Kommentar etwas lang ist.)

Ian Ringrose
quelle
Studenten sind ein ganz anderes Fass Affen, IMO. Ohne weitere Beweise würde ich der Lehrerin nicht sofort die Schuld für ihr Unverständnis geben ... Aber wenn es so klar ist, wie Sie sagen, dass die Lehrerin die Schuld trägt, wäre ich auch nicht überrascht.
Nick Stauner
@ NickStauner, ich beschuldige die Lehrerin, dass sie sich nicht genug um Statistiken gekümmert hat. Wenn sie sich darum kümmern würden, gäbe es auf jeder Prüfungsarbeit mindestens eine Frage, die ein gewisses Verständnis der Statistik erfordert, und zwar auf der Ebene „Wie man mit Statistiken lügt“. Es ist mir egal, ob Studenten der Sozialwissenschaften wissen, wie man das Kalkül macht, aber sie sollten wissen, wie man nicht irreführt.
Ian Ringrose
Einverstanden, dass sie es wissen sollten , aber es gibt keine Garantie, dass sie diese Frage richtig stellen!
Nick Stauner
@NickStauner, ja, aber Sie bekommen nur das, was Sie messen, so dass Sie keine Studenten bekommen, die etwas über Statistiken verstehen, es sei denn, Sie schreiben es in die Prüfungen.
Ian Ringrose
Auch hier neige ich dazu, Lehrern weniger Anerkennung für die Ergebnisse der Schüler zu schenken. Viele Schüler (okay, vielleicht nicht "viele", aber einige) werden es sich zur Aufgabe machen, für sich selbst zu lernen, und einige werden in den Unterricht kommen und bereits viel über das Material wissen. Verzeihen Sie mir, wenn ich Ihren Kommentar zu absolut interpretiere; Ich würde zustimmen, dass es oft ein notwendiges Übel ist, die Motivation zum Lernen zu zwingen, und dass Testen eine bessere Möglichkeit zum Lernen ist als reines, sich wiederholendes Lernen / Vortragen.
Nick Stauner
0

Als eine traurig unvollständige Liste finde ich Statistiken, die am häufigsten zutreffen, in 1) Physikpapieren, gefolgt von 2) statistischen Papieren und am miserabelsten in 3) medizinischen Papieren. Die Gründe hierfür sind einfach und hängen mit der Vollständigkeit der Anforderungen zusammen, die an das prototypische Modell in jedem Bereich gestellt werden.

In Physikpapieren müssen Gleichungen und angewandte Statistiken ausgewogene Einheiten berücksichtigen und das häufigste Auftreten von Kausalzusammenhängen sowie Tests mit physikalischen Standards aufweisen.

In der Statistik werden 1) Einheiten und Kausalität manchmal ignoriert, die Annahmen sind manchmal heuristisch, und physikalische Tests werden zu oft ignoriert, aber Gleichheit (oder Ungleichheit), dh Logik, wird im Allgemeinen entlang eines induktiven Pfades beibehalten, für den letztere keine Korrektur durchführen können unphysische Annahmen.

In der Medizin werden normalerweise Einheiten ignoriert, die Gleichungen und Annahmen sind normalerweise heuristisch, normalerweise ungetestet und häufig falsch.

Natürlich hat ein Gebiet wie die statistische Mechanik mit größerer Wahrscheinlichkeit überprüfbare Annahmen als beispielsweise die Wirtschaftlichkeit, und dies spiegelt nicht die Talente der potenziellen Autoren auf diesen Gebieten wider. Es hängt mehr damit zusammen, wie viel von dem, was getan wird, tatsächlich testbar ist und wie viel in den einzelnen Bereichen in der Vergangenheit getestet wurde.

Carl
quelle
-7

Jedes Papier, das die Null-Hypothese widerlegt, verwendet wertlose Statistiken (die überwiegende Mehrheit von dem, was ich gesehen habe). Dieser Vorgang kann keine Informationen liefern, die nicht bereits durch die Effektgröße bereitgestellt wurden. Ferner sagt es nichts darüber aus, ob ein signifikantes Ergebnis tatsächlich auf die vom Forscher theoretisierte Ursache zurückzuführen ist. Dies erfordert eine sorgfältige Untersuchung der Daten auf Anzeichen von Verwechslungen. In den meisten Fällen werden die stärksten Beweise, sofern vorhanden, sogar als "Ausreißer" verworfen.

Ich bin mit Evolution / Ökologie nicht so vertraut, aber im Fall von psychologischer und medizinischer Forschung würde ich das Niveau des statistischen Verständnisses als "stark verwirrt" und "ein Hindernis für den wissenschaftlichen Fortschritt" bezeichnen. Die Leute sollen etwas widerlegen, das von ihrer Theorie vorhergesagt wird, und nicht das Gegenteil davon (Null Unterschied / Effekt).

Es wurden Tausende von Artikeln zu diesem Thema verfasst. NHST-Hybrid-Kontroverse nachschlagen.

Edit: Und ich meine, die Nullhypothese Signifikanztest hat ein Maximum von Null wissenschaftlichen Wert. Diese Person trifft den Nagel auf den Kopf:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Auch: Paul Meehl. 1967. Theorieprüfung in Psychologie und Physik: Ein methodisches Paradoxon

Edit 3:

Wenn jemand Argumente für die Nützlichkeit von Strohmann-NHST hat, für die kein Denken erforderlich ist, ist "die Hypothese, dass die Erwärmungsrate die gleiche ist, abzulehnen, aber NICHT zu verstehen, dass die Erwärmungsrate nicht die gleiche ist", eine Rationalität Aussage, ich würde mich über Ihre Kommentare freuen.

Bearbeiten 4:

Was meinte Fisher mit dem folgenden Zitat? Schlägt es vor, dass er dachte "Wenn Modell / Theorie A mit den Daten nicht kompatibel ist, können wir sagen, dass A falsch ist, aber nichts darüber, ob A nicht wahr ist"?

"Es ist sicher, dass das Interesse statistischer Tests für wissenschaftliche Mitarbeiter ausschließlich von ihrer Verwendung abhängt, um Hypothesen abzulehnen, die als mit den Beobachtungen unvereinbar beurteilt werden."

...

Es würde daher die Klarheit, mit der die Signifikanztests betrachtet werden, erheblich verbessern, wenn allgemein verstanden würde, dass Signifikanztests bei genauer Anwendung Hypothesen zurückweisen oder ungültig machen können, sofern diese durch die Daten widerlegt werden ; aber dass sie niemals in der Lage sind, sie als sicher zu bezeichnen

Karl Pearson und RA Fisher über statistische Tests: Ein Austausch aus der Natur von 1935

Ging er davon aus, dass die Leute nur versuchen würden, plausible Hypothesen und nicht Strohmänner zu entkräften? Oder liege ich falsch?

Livid
quelle
7
"Dieser Prozess kann keine Informationen liefern, die nicht bereits durch die Effektgröße bereitgestellt wurden." Ist dies nicht der Fall, liefert der p-Wert einige Informationen darüber, wie ungewöhnlich diese Effektgröße unter der Nullhypothese wäre, und liefert somit ein Element zur Kalibrierung der Effektgröße. Verstehen Sie mich nicht falsch, ich denke, Bayes-Faktoren sind nützlicher, aber es ist übertrieben zu sagen, dass der p-Wert eine wertlose Statistik ist.
Dikran Beuteltier
3
"Ich finde, dass alle Muster, die mir (und anderen) auffallen, erwähnenswert sind." Dies ist genau das Problem, das bei der Diskussion des Klimas in Blogs auftritt. und es nützt dem Signal-Rausch-Verhältnis in der Debatte überhaupt nichts, wenn man keine Hürde hat, um eine Idee zu verwerfen, bevor man sie auf einem Blog veröffentlicht! Es ist ein Bereich der Wissenschaft, in dem die Statistiken oft sehr schlecht sind.
Dikran Beuteltier
2
Livid, ich habe Ihnen ein konkretes Beispiel gegeben, wo die Durchführung eines geeigneten NHST mit einem "Strohmann" H0 für die Diskussion eines wissenschaftlichen Themas von Vorteil wäre. Das liefert ein klares Gegenbeispiel, dass Ihre Ansicht zeigt , falsch zu sein - NHSTs, als fehlerhaft , wie sie sind, hat dennoch eine nützliche Funktion in der Wissenschaft und Statistik durchführt. Wenn Sie nun nachweisen können, dass mein Gegenbeispiel korrekt ist, kann dies zu einer Lösung des Problems führen.
Dikran Beuteltier
2
@Livid, NHST erfüllt eine wissenschaftlich und statistisch nicht erwünschte Funktion (wenn auch nicht optimal) und stellt kein willkürliches Hindernis dar. Die Hürde wird im Allgemeinen durch die Opposition gegen H1 definiert, und es geht nicht darum, das Konsequente zu begehen Irrtümer ", wie das Zurückweisen von H0 nicht impliziert, dass H1 wahr ist. Also nein, es ist nicht genau.
Dikran Beuteltier
3
Sie verpassen den Punkt. Wenn Sie eine niedrige Hürde haben, wundert es niemanden, wenn Sie erfolgreich verhandeln können. Allerdings , wenn Sie eine niedrige Hürde, aber man kann immer noch nicht darüber hinwegkommen, , Das sagt etwas. Wie ich wiederholt gesagt habe, bedeutet das Zurückweisen der Null nicht, dass H1 wahr ist. Das Zurückweisen von H0 bedeutet also nicht, dass es definitiv eine Pause gibt, es sagt Ihnen nicht, warum es eine Pause gab. Aber wenn Sie die Hürde, H0 abzulehnen, nicht überwinden können, deutet dies darauf hin, dass es möglicherweise nicht genügend Beweise gibt, um H1 als Tatsache zu behaupten (was in diesem Fall der Fall ist).
Dikran Beuteltier