Funktionieren p-Werte wirklich so? Kann eine Million Forschungsarbeiten pro Jahr auf Zufälligkeit beruhen?

98

Ich bin sehr neu in der Statistik und lerne gerade, die Grundlagen zu verstehen, einschließlich der Werte. Aber ich habe gerade ein großes Fragezeichen im Kopf und hoffe, dass mein Verständnis falsch ist. Hier ist mein Denkprozess:p

Sind nicht alle Forschungen auf der Welt ähnlich wie die Affen im "Satz der unendlichen Affen"? Bedenken Sie, dass es weltweit 23887 Universitäten gibt. Wenn jede Universität 1000 Studenten hat, sind das 23 Millionen Studenten pro Jahr.

Nehmen wir an, dass jedes Jahr mindestens ein Forschungsprojekt mit einem Hypothesentest mit .α=0.05

Bedeutet das nicht, dass selbst wenn alle Forschungsproben einer zufälligen Population entnommen würden, etwa 5% von ihnen "die Nullhypothese als ungültig ablehnen" würden. Beeindruckend. Denk darüber nach. Das sind ungefähr eine Million Forschungsarbeiten pro Jahr, die aufgrund "signifikanter" Ergebnisse veröffentlicht werden.

Wenn es so funktioniert, ist das beängstigend. Dies bedeutet, dass ein Großteil der "wissenschaftlichen Wahrheit", die wir für selbstverständlich halten, auf reiner Zufälligkeit beruht.

Ein einfacher Teil des R-Codes scheint mein Verständnis zu unterstützen:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

So funktioniert dieser Artikel über erfolgreiches Fischen: Ich habe Millionen zum Nachdenken über Schokolade getäuscht, um beim Abnehmen zu helfen . Hier ist wie .p

Ist das wirklich alles? Soll "Wissenschaft" so funktionieren?

n_mu_sigma
quelle
31
Das wahre Problem ist möglicherweise weitaus schlimmer als das Multiplizieren der Anzahl der wahren Nullen mit dem Signifikanzniveau aufgrund des Drucks, Signifikanz zu finden (wenn eine wichtige Zeitschrift keine nicht signifikanten Ergebnisse veröffentlicht oder ein Schiedsrichter eine Arbeit ablehnt, die dies nicht tut) Sie haben signifikante Ergebnisse, es besteht der Druck, einen Weg zu finden, um Bedeutung zu erlangen ... und wir sehen hier in vielen Fragen Expeditionen auf der Suche nach Bedeutung. dies kann zu wahren Signifikanzniveaus führen, die viel höher sind, als sie zu sein scheinen.
Glen_b
5
Andererseits sind viele Nullhypothesen Punktnullen, und diese sind sehr selten tatsächlich wahr.
Glen_b
37
Bitte kombinieren Sie die wissenschaftliche Methode nicht mit p-Werten. Die Wissenschaft besteht unter anderem auf Reproduzierbarkeit . Das ist , wie Papiere auf, sagen sie, die kalte Fusion (1989) publiziert werden kann , aber die kalte Fusion nicht als vertretbare wissenschaftliche Theorie für das letzte Quartal Jahrhundert existiert. Beachten Sie auch, dass nur wenige Wissenschaftler daran interessiert sind, in Bereichen zu arbeiten, in denen die relevante Nullhypothese tatsächlich zutrifft . Ihre Hypothese, dass "alle Forschungsproben einer zufälligen Population entnommen wurden", spiegelt also nichts Realistisches wider.
Whuber
13
Obligatorischer Verweis auf die xkcd Gummibärchen-Karikatur . Kurze Antwort - das kommt leider zu oft vor, und einige Zeitschriften bestehen jetzt darauf, dass ein Statistiker jede Veröffentlichung überprüft, um die Menge an "bedeutender" Forschung zu verringern, die den Weg in die Öffentlichkeit findet. Viele relevante Antworten und Kommentare in dieser früheren Diskussion
Floris
8
Vielleicht verstehe ich die Beschwerde nicht ... "Wir haben 95% der Scheinhypothesen erfolgreich besiegt. Die verbleibenden 5% waren nicht so einfach zu besiegen, da zufällige Schwankungen aussahen, als wären sie bedeutungsvolle Effekte. Wir sollten uns diese genauer ansehen und sie ignorieren andere 95%. " Das klingt genau nach der richtigen Art von Verhalten für irgendetwas wie "Wissenschaft".
Eric Towers

Antworten:

70

Dies ist sicherlich ein berechtigtes Anliegen, aber das ist nicht ganz richtig.

Wenn 1.000.000 Studien durchgeführt wurden und alle Nullhypothesen zutreffen, werden ca. 50.000 bei p <0,05 signifikante Ergebnisse erzielen. Das ist es, was ein Wert bedeutet. Die Null ist jedoch im Grunde nie genau richtig. Aber selbst wenn wir es auf "fast wahr" oder "ungefähr richtig" oder etwas Ähnliches reduzieren, würde dies bedeuten, dass sich die 1.000.000 Studien alle mit Dingen wie befassen müssten

  • Das Verhältnis zwischen Sozialversicherungsnummer und IQ
  • Hat die Länge Ihrer Zehen etwas mit dem Geburtszustand zu tun?

und so weiter. Unsinn.

Ein Problem ist natürlich, dass wir nicht wissen, welche Nullen wahr sind. Ein weiteres Problem ist das in seinem Kommentar erwähnte @Glen_b - das Problem mit der Dateiausgabe.

Aus diesem Grund mag ich Robert Abelsons Ideen so sehr, dass er sie in der Statistik als prinzipielles Argument ausdrückt . Das heißt, statistische Nachweise sollten Teil eines grundsätzlichen Arguments darüber sein, warum etwas der Fall ist, und sollten nach den MAGIC-Kriterien beurteilt werden:

  • Größenordnung: Wie groß ist der Effekt?
  • Artikulation: Ist es voll mit "wenn", "und" und "aber" (das ist schlecht)
  • Allgemeingültigkeit: Wie weit gilt es?
  • Interessantheit
  • Glaubwürdigkeit: Unglaubliche Behauptungen erfordern viele Beweise
Peter Flom
quelle
4
Könnte man sogar sagen: "Wenn 1M-Studien durchgeführt wurden und auch wenn alle Nullhypothesen wahr sind, führen ungefähr 50.000 Fehler vom Typ 1 aus und lehnen die Nullhypothese fälschlicherweise ab. Wenn ein Forscher p <0,05 erhält, wissen sie nur, dass" h0 richtig ist und ein seltenes Ereignis ist aufgetreten ODER h1 ist falsch ". Es gibt keine Möglichkeit zu sagen, was es ist, wenn man sich nur die Ergebnisse dieser einen Studie
ansieht
5
Sie können nur dann ein falsches Positiv erhalten, wenn das Positive tatsächlich falsch ist. Wenn Sie 40 IVs auswählen, bei denen es sich ausschließlich um Rauschen handelt, haben Sie eine gute Chance auf einen Typ-I-Fehler. Aber im Allgemeinen wählen wir IVs aus einem Grund. Und die Null ist falsch. Sie können keinen Fehler vom Typ I machen, wenn die Null falsch ist.
Peter Flom
6
Ich verstehe Ihren zweiten Absatz einschließlich der Aufzählungszeichen überhaupt nicht. Nehmen wir als Argument an, dass alle 1 Million Studien Arzneimittelverbindungen auf die Heilung eines bestimmten Zustands testeten. Die Nullhypothese für jede dieser Studien ist, dass das Medikament den Zustand nicht heilt. Also, warum muss das "im Grunde nie streng wahr sein"? Warum sollten sich alle Studien Ihrer Meinung nach auf unsinnige Zusammenhänge wie ss # und IQ beziehen? Vielen Dank für jede zusätzliche Erklärung, die mir helfen kann, Ihren Standpunkt zu verstehen.
Chelonian
11
Um die Beispiele von @ PeterFlom konkret zu machen: Die ersten drei Ziffern einer SSN (für die Codierung der Postleitzahl des Antragstellers). Da die einzelnen Bundesstaaten eine etwas andere Demografie aufweisen und die Zehengröße mit einigen demografischen Faktoren (Alter, Rasse usw.) korrelieren kann, besteht mit ziemlicher Sicherheit ein Zusammenhang zwischen der Sozialversicherungsnummer und der Zehengröße - sofern genügend Daten vorliegen.
Matt Krause
6
@MattKrause gutes Beispiel. Ich bevorzuge die Fingerzählung nach Geschlecht. Ich bin sicher, wenn ich eine Volkszählung aller Männer und Frauen machen würde, würde ich feststellen, dass ein Geschlecht durchschnittlich mehr Finger hat als das andere. Ohne eine extrem große Stichprobe zu nehmen, habe ich keine Ahnung, welches Geschlecht mehr Finger hat. Außerdem bezweifle ich, dass ich als Handschuhhersteller Fingerzählungsdaten für das Handschuhdesign verwenden würde.
Emory
40

Sind nicht alle Forschungen auf der ganzen Welt in gewisser Weise mit den Affen des "Unendlichen Affentheorems" vergleichbar?

Denken Sie daran, Wissenschaftler sind kritisch NICHT wie unendliche Affen, weil ihr Forschungsverhalten - insbesondere das Experimentieren - alles andere als zufällig ist. Experimente sind (zumindest) unglaublich sorgfältig kontrollierte Manipulationen und Messungen, die auf mechanistisch fundierten Hypothesen beruhen, die auf einer Vielzahl früherer Forschungen aufbauen. Es sind nicht nur zufällige Aufnahmen im Dunkeln (oder Affenfinger auf Schreibmaschinen).

Bedenken Sie, dass es weltweit 23887 Universitäten gibt. Wenn jede Universität 1000 Studenten hat, sind das 23 Millionen Studenten pro Jahr. Sagen wir, dass jedes Jahr jeder Student mindestens eine Forschung macht,

Diese Schätzung für die Anzahl der veröffentlichten Forschungsergebnisse muss weit entfernt sein. Ich weiß nicht, ob es 23 Millionen "Universitätsstudenten" auf der Welt gibt (schließt das auch Universitäten oder Hochschulen ein?), Aber ich weiß, dass die überwiegende Mehrheit von ihnen niemals wissenschaftliche Erkenntnisse veröffentlicht. Ich meine, die meisten von ihnen sind keine wissenschaftlichen Majors, und selbst die meisten wissenschaftlichen Majors veröffentlichen niemals Ergebnisse.

Eine wahrscheinlichere Schätzung (einige Diskussionen ) für die Anzahl der wissenschaftlichen Veröffentlichungen pro Jahr liegt bei 1 bis 2 Millionen.

Bedeutet das nicht, dass selbst wenn alle Forschungsproben aus einer zufälligen Population gezogen würden, etwa 5% von ihnen "die Nullhypothese als ungültig ablehnen" würden. Beeindruckend. Denken Sie daran. Das sind ungefähr eine Million Forschungsarbeiten pro Jahr, die aufgrund "signifikanter" Ergebnisse veröffentlicht werden.

Beachten Sie, dass nicht alle veröffentlichten Forschungsergebnisse Statistiken enthalten, bei denen die Signifikanz bei p = 0,05 liegt. Oft sieht man p-Werte wie p <0,01 oder sogar p <0,001. Ich weiß natürlich nicht, wie hoch der "mittlere" p-Wert bei über einer Million Papieren liegt.

Wenn es so funktioniert, ist das beängstigend. Dies bedeutet, dass ein Großteil der "wissenschaftlichen Wahrheit", die wir für selbstverständlich halten, auf reiner Zufälligkeit beruht.

Bedenken Sie auch, dass Wissenschaftler eine kleine Anzahl von Ergebnissen bei p um 0,05 eigentlich nicht als "wissenschaftliche Wahrheit" ansehen sollten. Nicht annähernd. Die Wissenschaftler sollen über viele Studien hinweg integrieren, von denen jede eine angemessene statistische Aussagekraft, einen plausiblen Mechanismus, Reproduzierbarkeit, Wirkungsstärke usw. aufweist, und diese in ein vorläufiges Modell der Funktionsweise eines Phänomens einbeziehen.

Bedeutet das aber, dass fast die gesamte Wissenschaft korrekt ist? Auf keinen Fall. Wissenschaftler sind Menschen und werden von Vorurteilen, schlechten Forschungsmethoden (einschließlich unsachgemäßer statistischer Ansätze), Betrug, einfachem menschlichem Versagen und Pech heimgesucht. Wahrscheinlich dominanter in der Frage, warum ein gesunder Teil der veröffentlichten Wissenschaft falsch ist, sind diese Faktoren und nicht die Konvention p <0,05. Lassen Sie uns einfach auf den Punkt kommen und eine noch "beängstigendere" Aussage machen als die, die Sie gemacht haben:

Warum die meisten veröffentlichten Forschungsergebnisse falsch sind

Chelonian
quelle
10
Ich würde sagen, dass Ioannidis ein strenges Argument vorbringt, das die Frage stützt. Die Wissenschaft wird nicht so gut gemacht, wie die Optimisten, die hier antworten, zu denken scheinen. Und viele veröffentlichte Forschungsergebnisse werden nie repliziert. Darüber hinaus stützen die Ergebnisse bei Replikationsversuchen tendenziell das Argument von Ioannidis, dass viel publizierte Wissenschaft im Grunde genommen Blödsinn ist.
matt_black
9
Es kann von Interesse sein, dass in der Teilchenphysik unser p-Wert-Schwellenwert für eine Entdeckung 0,00000057 beträgt.
David Z
2
In vielen Fällen gibt es überhaupt keine p-Werte. Mathematik und theoretische Physik sind gängige Fälle.
Davidmh
21

p

α

Vgl. Z. B. die jüngste Diskussion eines Artikels von David Colquhoun aus dem Jahr 2014: Verwechslung mit falscher Entdeckungsrate und mehrfachen Tests (zu Colquhoun 2014) . Ich habe dort gegen diese "mindestens 30%" Schätzung gestritten, aber ich stimme zu, dass in einigen Bereichen der Forschung die Rate falscher Entdeckungen viel höher als 5% sein kann. Das ist in der Tat besorgniserregend.

Ich glaube nicht, dass es hier hilft, wenn man sagt, dass Null fast nie wahr ist. Fehler vom Typ S und Typ M (wie von Andrew Gelman eingeführt) sind nicht viel besser als Fehler vom Typ I / II.

Ich denke, was es wirklich bedeutet, ist, dass man niemals einem isolierten "signifikanten" Ergebnis trauen sollte.

α107α=0.05

p<0.05p

p<0.05

Amöbe
quelle
Zu "kumulativen p-Werten": Können Sie die einzelnen p-Werte einfach multiplizieren, oder müssen Sie einige monströse Kombinatoriken durchführen, damit dies funktioniert?
Kevin
pαp
17

Ihre Sorge ist genau die Sorge, die einem Großteil der gegenwärtigen wissenschaftlichen Diskussion über Reproduzierbarkeit zugrunde liegt. Der wahre Sachverhalt ist jedoch etwas komplizierter, als Sie vermuten.

Lassen Sie uns zunächst eine Terminologie festlegen. Das Testen der Signifikanz von Nullhypothesen kann als Signalerkennungsproblem verstanden werden - die Nullhypothese ist entweder wahr oder falsch, und Sie können sie entweder ablehnen oder beibehalten. Die Kombination von zwei Entscheidungen und zwei möglichen "wahren" Sachverhalten ergibt die folgende Tabelle, die die meisten Menschen zu einem bestimmten Zeitpunkt sehen, wenn sie zum ersten Mal Statistiken lernen:

Bildbeschreibung hier eingeben

Wissenschaftler, die Nullhypothesen-Signifikanztests verwenden, versuchen, die Anzahl der richtigen Entscheidungen (in Blau dargestellt) zu maximieren und die Anzahl der falschen Entscheidungen (in Rot dargestellt) zu minimieren. Berufstätige Wissenschaftler versuchen auch, ihre Ergebnisse zu veröffentlichen, damit sie eine Anstellung finden und ihre Karriere vorantreiben können.

H0


H0

Publikationsbias

α

p

Freiheitsgrade der Forscher

αα. Angesichts einer ausreichend großen Anzahl fragwürdiger Forschungspraktiken kann die Rate der falsch-positiven Ergebnisse bis zu 0,60 betragen, selbst wenn die Nominalrate auf 0,05 festgelegt wurde ( Simmons, Nelson & Simonsohn, 2011 ).

Es ist wichtig zu beachten, dass die missbräuchliche Verwendung von Freiheitsgraden für Forscher (die manchmal als fragwürdige Forschungspraxis bezeichnet wird; Martinson, Anderson & de Vries, 2005 ) nicht mit der Erstellung von Daten identisch ist. In einigen Fällen ist es das Richtige, Ausreißer auszuschließen, entweder weil die Ausrüstung ausfällt oder aus einem anderen Grund. Das Hauptproblem besteht darin, dass bei Vorhandensein von Freiheitsgraden für Forscher die während der Analyse getroffenen Entscheidungen häufig davon abhängen, wie sich die Daten entwickeln ( Gelman & Loken, 2014)), auch wenn den betreffenden Forschern dies nicht bekannt ist. Solange Forscher die Freiheitsgrade von Forschern (bewusst oder unbewusst) verwenden, um die Wahrscheinlichkeit eines signifikanten Ergebnisses zu erhöhen (möglicherweise weil signifikante Ergebnisse "publizierbarer" sind), wird das Vorhandensein von Freiheitsgraden von Forschern eine Forschungsliteratur mit falsch positiven Ergebnissen in überfüllen genauso wie Publikationsbias.


Eine wichtige Einschränkung der obigen Diskussion ist, dass wissenschaftliche Arbeiten (zumindest in der Psychologie, die mein Fachgebiet ist) selten aus einzelnen Ergebnissen bestehen. Häufiger sind mehrere Studien, von denen jede mehrere Tests umfasst. Der Schwerpunkt liegt darauf, ein größeres Argument aufzubauen und alternative Erklärungen für die vorgelegten Beweise auszuschließen. Die selektive Präsentation von Ergebnissen (oder das Vorhandensein von Freiheitsgraden für Forscher) kann jedoch ebenso leicht zu Verzerrungen in einer Reihe von Ergebnissen führen wie ein einzelnes Ergebnis. Es gibt Hinweise darauf, dass die in Studienarbeiten präsentierten Ergebnisse oft viel sauberer und aussagekräftiger sind, als man erwarten würde, selbst wenn alle Vorhersagen dieser Studien wahr wären ( Francis, 2013 ).


Fazit

Grundsätzlich stimme ich Ihrer Intuition zu, dass das Testen der Signifikanz von Nullhypothesen schief gehen kann. Ich würde jedoch argumentieren, dass die wahren Übeltäter, die eine hohe Rate an Fehlalarmen verursachen, Prozesse wie Publikationsbias und die Anwesenheit von Freiheitsgraden für Forscher sind. In der Tat sind sich viele Wissenschaftler dieser Probleme bewusst, und die Verbesserung der wissenschaftlichen Reproduzierbarkeit ist ein sehr aktives aktuelles Diskussionsthema (z. B. Nosek & Bar-Anan, 2012 ; Nosek, Spies & Motyl, 2012 ). Sie sind also mit Ihren Bedenken in guter Gesellschaft, aber ich denke, es gibt auch Gründe für vorsichtigen Optimismus.


Verweise

Stern, JM & Simes, RJ (1997). Publikationsbias: Hinweise auf eine verspätete Veröffentlichung in einer Kohortenstudie klinischer Forschungsprojekte. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

K. Dwan, DG Altman, JA Arnaiz, J. Bloom, A. Chan, E. Cronin, PR Williamson (2008). Systematische Überprüfung der empirischen Evidenz der Verzerrung der Studienpublikation und der Verzerrung der Ergebnisberichterstattung. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS & de Vries, R. (2005). Wissenschaftler benehmen sich schlecht. Nature, 435, 737–738. http://doi.org/10.1038/435737a

Gelman, A. & Loken, E. (2014). Die statistische Krise in der Wissenschaft. American Scientist, 102, 460 & ndash; 465.

Francis, G. (2013). Replikation, statistische Konsistenz und Publikationsbias. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Nosek, BA & Bar-Anan, Y. (2012). Wissenschaftliche Utopie: I. Eröffnung der wissenschaftlichen Kommunikation. Psychological Inquiry, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Nosek, BA, Spies, JR & Motyl, M. (2012). Wissenschaftliche Utopie: II. Umstrukturierung von Anreizen und Praktiken zur Förderung der Wahrheit über die Publizierbarkeit. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

Patrick S. Forscher
quelle
1
+1. Schöne Linksammlung. Hier ist ein sehr relevantes Papier für Ihren Abschnitt "Forscherfreiheitsgrade": Der Garten der Gabelpfade: Warum mehrfache Vergleiche ein Problem sein können, auch wenn es keine "Fischereiexpedition" oder "P-Hacking" gibt und die Forschungshypothese lautete vorausgesetzt von Andrew Gelman und Eric Loken (2013).
Amöbe
Vielen Dank, @amoeba, für diesen interessanten Hinweis. Besonders gut gefällt mir, dass Gelman und Loken (2013) darauf hinweisen, dass die Nutzung von Freiheitsgraden für Forscher kein bewusster Prozess sein muss. Ich habe meine Antwort so bearbeitet, dass sie dieses Papier enthält.
Patrick S. Forscher
Ich habe gerade die veröffentlichte Version von Gelman & Loken (2014) in American Scientist gefunden.
Patrick S. Forscher
10

Eine wesentliche Überprüfung der in dieser Frage aufgeworfenen wichtigen Frage ist, dass "wissenschaftliche Wahrheit" nicht auf einzelnen, isolierten Veröffentlichungen beruht. Wenn ein Ergebnis interessant genug ist, werden andere Wissenschaftler aufgefordert, die Auswirkungen des Ergebnisses zu untersuchen. Diese Arbeit wird in der Regel die ursprüngliche Feststellung bestätigen oder widerlegen. In einer Einzelstudie besteht möglicherweise eine Wahrscheinlichkeit von 1/20, eine echte Nullhypothese abzulehnen, aber nur eine Wahrscheinlichkeit von 1/400, dies zweimal hintereinander zu tun.

Wenn Wissenschaftler einfach Experimente wiederholen, bis sie "Signifikanz" finden und dann ihre Ergebnisse veröffentlichen, könnte das Problem so groß sein, wie es das OP vorschlägt. Aber so funktioniert Wissenschaft nicht, jedenfalls aufgrund meiner fast 50-jährigen Erfahrung in der biomedizinischen Forschung. Darüber hinaus handelt eine Veröffentlichung selten von einem einzelnen "signifikanten" Experiment, sondern basiert auf einer Reihe miteinander in Beziehung stehender Experimente (von denen jedes für sich genommen "signifikant" sein muss), die zusammen eine breitere, inhaltliche Hypothese stützen.

Ein viel größeres Problem kommt von Wissenschaftlern, die sich zu sehr ihren eigenen Hypothesen verschrieben haben. Sie können dann die Implikationen einzelner Experimente überinterpretieren, um ihre Hypothesen zu untermauern, zweifelhafte Datenbearbeitungen vornehmen (wie das willkürliche Entfernen von Ausreißern) oder (wie ich gesehen und beim Auffangen geholfen habe) nur die Daten zusammenstellen.

Die Wissenschaft ist jedoch ein äußerst sozialer Prozess, ungeachtet der Mythologie über verrückte Wissenschaftler, die sich hoch oben in Elfenbeintürmen verstecken. Das Geben und Nehmen unter Tausenden von Wissenschaftlern, die ihre Interessen verfolgen, basierend auf dem, was sie aus der Arbeit anderer gelernt haben, ist der ultimative institutionelle Schutz vor falschen Positiven. Falsche Ergebnisse können manchmal jahrelang aufrechterhalten werden, aber wenn ein Problem ausreichend wichtig ist, werden die falschen Schlussfolgerungen letztendlich vom Prozess identifiziert.

EdM
quelle
6
1/400040
2
In 23 Millionen Studien konnten wir immer noch nicht sagen, ob 5.000 Ergebnisse eine Nullhypothese nur aufgrund von Rauschen ablehnen, oder? Es ist wirklich auch ein Skalenproblem. Sobald Sie Millionen von Nachforschungen angestellt haben, kommt es häufig zu Fehlern des Typs 1.
n_mu_sigma
3
Wenn es nur 5000 falsche Schlussfolgerungen aus 23.000.000 Studien gäbe, würde ich das in der Tat als ungewöhnlich bezeichnen !
Whuber
3
In fast 50 Jahren wissenschaftlicher Tätigkeit und in denen ich andere Wissenschaftler kenne, fällt mir niemand ein, der Experimente wiederholt hat, bis sie "Bedeutung" erlangt haben. Die von @whuber angesprochene theoretische Möglichkeit ist nach meiner Erfahrung kein großes praktisches Problem. Das weitaus größere praktische Problem besteht darin, Daten zu erstellen, indem entweder indirekt "Ausreißer" verworfen werden, die nicht zu einem Vorurteil passen, oder indem zunächst nur "Daten" erstellt werden. Diese Verhaltensweisen habe ich aus erster Hand gesehen und sie können nicht durch Anpassen der p- Werte behoben werden .
EdM
3
@EdM "In einer Einzelstudie besteht möglicherweise eine Wahrscheinlichkeit von 1/20, eine echte Nullhypothese abzulehnen, aber nur eine Wahrscheinlichkeit von 1/4000, dies zweimal hintereinander zu tun." Wie hast du die zweite Nummer bekommen?
Aksakal
5

Um die Diskussion zu erweitern, hier ein interessanter Beitrag und eine anschließende Diskussion darüber, wie Menschen p-value häufig missverstehen.

Was auf jeden Fall beibehalten werden sollte, ist, dass ein p-Wert nur ein Maß für die Beweiskraft bei der Zurückweisung einer bestimmten Hypothese ist. Ein p-Wert ist definitiv keine harte Schwelle, unterhalb derer etwas "wahr" ist und oberhalb derer es nur zufällig ist. Wie in dem Beitrag erklärt, auf den oben verwiesen wurde:

Das Ergebnis ist eine Kombination aus echten Effekten und Zufällen, es ist nicht entweder / oder

Antoine
quelle
Vielleicht trägt dies zum Verständnis von p-Werten bei: stats.stackexchange.com/questions/166323/…
4

Wie auch in den anderen Antworten ausgeführt, führt dies nur dann zu Problemen, wenn Sie die positiven Ergebnisse, bei denen die Nullhypothese ausgeschlossen ist, selektiv betrachten. Aus diesem Grund schreiben Wissenschaftler Übersichtsartikel, in denen sie bereits veröffentlichte Forschungsergebnisse berücksichtigen und versuchen, auf dieser Grundlage ein besseres Verständnis für das Thema zu entwickeln. Es bleibt jedoch dann immer noch ein Problem, das auf die sogenannte "Publikationsverzerrung" zurückzuführen ist, dh Wissenschaftler schreiben eher einen Artikel über ein positives Ergebnis als über ein negatives Ergebnis, auch eine Abhandlung über ein negatives Ergebnis Es ist wahrscheinlicher, dass eine Veröffentlichung abgelehnt wird, als ein Artikel über ein positives Ergebnis.

Besonders in Bereichen, in denen statistische Tests von großer Bedeutung sind, wird dies ein großes Problem darstellen. Das Gebiet der Medizin ist ein berüchtigtes Beispiel. Aus diesem Grund wurde vorgeschrieben, klinische Studien zu registrieren, bevor sie durchgeführt werden (z . B. hier ). Sie müssen also die Einrichtung, die Durchführung der statistischen Analyse usw. usw. erläutern, bevor der Test beginnt. Die führenden medizinischen Fachzeitschriften lehnen es ab, Artikel zu veröffentlichen, wenn die Studien, über die sie berichten, nicht registriert sind.

Leider funktioniert das System trotz dieser Maßnahme nicht so gut .

Graf Iblis
quelle
Vielleicht wird dies zum Verständnis von p-Werten beitragen
3

Dies kommt einer sehr wichtigen Tatsache in Bezug auf die wissenschaftliche Methode nahe: Sie betont die Fälschbarkeit. Die heute populärste Wissenschaftsphilosophie hat Karl Poppers Konzept der Fälschbarkeit als Eckpfeiler.

Der grundlegende wissenschaftliche Prozess ist also:

  • Jeder kann jederzeit jede Theorie beanspruchen, die er will. Die Wissenschaft wird jede Theorie zugeben, die "fälschbar" ist. Der wörtlichste Sinn dieses Wortes ist, dass diese Person, wenn jemand anderes die Behauptung nicht mag, die Ressourcen ausgeben kann, um die Behauptung zu widerlegen. Wenn Sie nicht glauben, dass Argyle-Socken Krebs heilen, können Sie Ihre eigene medizinische Abteilung nutzen, um dies zu widerlegen.

  • Da diese Eintrittsbarriere monumental niedrig ist, ist es traditionell so, dass "Wissenschaft" als kulturelle Gruppe keine wirkliche Idee hat, bis Sie sich "gut bemüht" haben, Ihre eigene Theorie zu verfälschen.

  • Die Akzeptanz von Ideen erfolgt in der Regel schrittweise. Sie können Ihr Konzept in einen Zeitschriftenartikel mit einer Studie und einem relativ niedrigen p-Wert umwandeln. Was das Ihnen bringt, ist Werbung und Glaubwürdigkeit. Wenn jemand an Ihrer Idee interessiert ist, beispielsweise wenn Ihre Wissenschaft technische Anwendungen hat, kann er sie verwenden. Zu diesem Zeitpunkt ist es wahrscheinlicher, dass sie eine zusätzliche Fälschungsrunde finanzieren.

  • Dieser Prozess geht vorwärts, immer mit der gleichen Einstellung: Glauben Sie, was Sie wollen, aber um es Wissenschaft zu nennen, muss ich es später widerlegen können.

Dieser niedrige Einstiegsstrich macht ihn so innovativ. Es gibt also eine große Anzahl von theoretisch "falschen" Zeitschriftenartikeln. Der Schlüssel ist jedoch, dass jeder veröffentlichte Artikel theoretisch fälschbar ist, sodass zu jedem Zeitpunkt jemand das Geld ausgeben kann, um ihn zu testen.

Dies ist der Schlüssel: Zeitschriften enthalten nicht nur Dinge, die einen vernünftigen p-Test bestehen, sondern sie enthalten auch die Schlüssel, mit denen andere sie zerlegen können, wenn sich herausstellt, dass die Ergebnisse falsch sind.

Cort Ammon
quelle
1
Das ist sehr idealistisch. Einige befürchten, dass zu viele falsche Veröffentlichungen zu einem zu niedrigen Signal-Rausch-Verhältnis in der Literatur führen und den wissenschaftlichen Prozess ernsthaft verlangsamen oder fehlleiten können.
Amöbe
1
@amoeba Sie bringen einen guten Punkt vor. Ich wollte auf jeden Fall den Idealfall erfassen, da ich finde, dass er oft im Rauschen verloren geht. Darüber hinaus denke ich, dass die Frage des SNR in der Literatur eine berechtigte Frage ist, aber zumindest eine, die ausbalancierbar sein sollte. Es gibt bereits Konzepte für gute und schlechte Zeitschriften, daher gibt es einige Hinweise darauf, dass dieser Spagat schon seit einiger Zeit im Gange ist.
Cort Ammon
Dieses Verständnis der Wissenschaftsphilosophie scheint mehrere Jahrzehnte veraltet zu sein. Die popperianische Fälschbarkeit ist nur "populär" in dem Sinne, dass sie ein allgemeiner urbaner Mythos darüber ist, wie Wissenschaft geschieht.
EnergyNumbers
@EnergyNumbers Könnten Sie mich über die neue Denkweise aufklären? Die Philosophie SE ist ganz anderer Meinung als Ihre. Wenn man sich die Geschichte der Fragen dort ansieht, ist die Popperianische Fälschbarkeit das bestimmende Merkmal der Wissenschaft für die Mehrheit derer, die ihre Stimme gesprochen haben. Ich würde gerne eine neuere Denkweise lernen und sie dort einbringen!
Cort Ammon
Neu? Kuhn hat Popper vor Jahrzehnten widerlegt. Wenn Sie auf philosophy.se keinen Post von Popperian haben, scheint die Aktualisierung eine verlorene Sache zu sein - lassen Sie es einfach in den 1950er Jahren. Wenn Sie sich auf den neuesten Stand bringen möchten, sollten Sie mit jeder Grundausbildung des 21. Jahrhunderts in der Wissenschaftsphilosophie beginnen.
EnergyNumbers
1

Soll "Wissenschaft" so funktionieren?

So funktionieren viele Sozialwissenschaften. Nicht so sehr mit den Naturwissenschaften. Denken Sie daran: Sie haben Ihre Frage auf einem Computer eingegeben. Die Menschen waren in der Lage, diese komplizierten Tiere, die Computer genannt werden, mit den Kenntnissen der Physik, Chemie und anderer Gebiete der Naturwissenschaften zu bauen. Wenn die Situation so schlimm wäre, wie Sie es beschreiben, würde keine Elektronik funktionieren. Oder denken Sie an die Dinge wie eine Masse eines Elektrons, die mit wahnsinniger Präzision bekannt ist. Sie passieren Milliarden von Logikgattern in einem Computer, und Ihr Computer funktioniert noch immer und funktioniert jahrelang.

UPDATE: Um auf die Abwärtsstimmen zu antworten, die ich erhalten habe, fühlte ich mich inspiriert, Ihnen ein paar Beispiele zu geben.

Der erste stammt aus der Physik: Bystritsky, VM, et al. " Messung der astrophysikalischen S-Faktoren und der Querschnitte der p (d, γ) 3He-Reaktion im ultraniedrigen Energiebereich unter Verwendung eines Zirkonium-Deuterid-Targets ." Physik der Teilchen und Kernbuchstaben 10.7 (2013): 717-722.

0.237±0.061

Mein nächstes Beispiel stammt aus der ... Psychologie: Paustian-Underdahl, Samantha C., Lisa Slattery Walker und David J. Woehr. " Geschlecht und Wahrnehmung von Führungseffektivität: Eine Metaanalyse kontextbezogener Moderatoren ." Journal of Applied Psychology, 2014, Vol. 99, Nr. 6, 1129–1145.

χ2

Schauen Sie sich nun einige Papiertabellen an und raten Sie, von welchen Papieren sie stammen:

Bildbeschreibung hier eingeben Bildbeschreibung hier eingeben

Das ist die Antwort, warum Sie in einem Fall "coole" Statistiken benötigen und in einem anderen Fall nicht: weil die Daten entweder beschissen sind oder nicht. Wenn Sie über gute Daten verfügen, benötigen Sie nur Standardfehler.

UPDATE2: @ PatrickS.Forscher hat im Kommentar eine interessante Aussage gemacht:

Es ist auch wahr, dass sozialwissenschaftliche Theorien "weicher" (weniger formal) sind als physikalische Theorien.

Ich muss nicht zustimmen. In Wirtschaft und Finanzen sind die Theorien überhaupt nicht "weich". Sie können in diesen Feldern nach dem Zufallsprinzip nach einem Artikel suchen und so etwas abrufen:

Bildbeschreibung hier eingeben

und so weiter.

Es ist von Schervish, Mark J., Teddy Seidenfeld und Joseph B. Kadane. " Erweiterungen der erwarteten Nützlichkeitstheorie und einige Einschränkungen paarweiser Vergleiche ." (2003). Sieht das für dich weich aus?

Ich wiederhole hier meinen Punkt: Wenn Ihre Theorien nicht gut sind und die Daten beschissen sind, können Sie die schwierigste Mathematik anwenden und trotzdem ein beschissenes Ergebnis erzielen.

In diesem Artikel geht es um Versorgungsleistungen, das Konzept von Glück und Zufriedenheit - absolut unbeobachtbar. Es ist wie das, was ein Nutzen ist, ein Haus zu haben oder einen Cheeseburger zu essen? Vermutlich gibt es diese Funktion, bei der Sie "Cheeseburger essen" oder "Im eigenen Haus wohnen" einstecken können, und die Funktion wird in einigen Einheiten die Antwort ausspucken. So verrückt das auch klingen mag, dank von Neuman baut die moderne Wirtschaft auf ihr auf.

Aksakal
quelle
1
+1 Ich bin mir nicht sicher, warum dies zweimal abgelehnt wurde. Sie weisen im Grunde darauf hin, dass Entdeckungen in der Physik mit Experimenten getestet werden können, und die meisten "Entdeckungen" in den Sozialwissenschaften können es nicht sein, was sie nicht davon abhält, viel Aufmerksamkeit in den Medien zu erregen.
Flunder
6
Die meisten Experimente beinhalten letztendlich eine Art statistischen Test und lassen dennoch Raum für Typ-1-Fehler und Fehlverhalten wie p-Wert-Fischen. Ich denke, das Herausgreifen der Sozialwissenschaften ist ein bisschen unangebracht.
Kenji
4
Um etwas zu ändern, was @GuilhermeKenjiChihaya sagt, könnte die Standardabweichung der Fehler vermutlich verwendet werden, um einen statistischen Test in physikalischen Experimenten durchzuführen. Vermutlich würde dieser statistische Test zu dem gleichen Ergebnis kommen, zu dem die Autoren beim Betrachten des Diagramms mit seinen Fehlerbalken gelangen. Der Hauptunterschied zu Physikpapieren ist also das zugrunde liegende Rauschen im Experiment, ein Unterschied, der unabhängig davon ist, ob das Die der Verwendung von p-Werten zugrunde liegende Logik ist gültig oder ungültig.
Patrick S. Forscher
3
Außerdem, @Flounderer, scheinen Sie den Begriff "Experiment" in einem mir unbekannten Sinne zu verwenden, da Sozialwissenschaftler die ganze Zeit "Experimente" (dh Randomisierung von Einheiten zu Bedingungen) durchführen. Es ist wahr, dass sozialwissenschaftliche Experimente in demselben Maße schwer zu kontrollieren sind wie physikalische Experimente. Es ist auch wahr, dass sozialwissenschaftliche Theorien "weicher" (weniger formal) sind als physikalische Theorien. Diese Faktoren sind jedoch unabhängig davon, ob es sich bei einer bestimmten Studie um ein "Experiment" handelt.
Patrick S. Forscher
2
@Aksakal, obwohl ich mit -1 nicht einverstanden bin, stimme ich auch teilweise nicht mit Ihrem sozialwissenschaftlichen Kritiker überein. Ihr Beispiel der wirtschaftlichen Papier ist auch kein gutes Beispiel dafür , was Sozialwissenschaftler tun auf einer täglichen Basis , weil die Nutzentheorie ein streng wirtschaftlich / mathematisch / statistische Konzept ist (so ist es bereits hat Mathe drin) und es nicht ähnelt nicht zB psychologischen Theorien, werden experimentell getestet ... Ich stimme jedoch zu, dass Statistiken in vielen Bereichen der Forschung, einschließlich der Sozialwissenschaften, häufig nur lose verwendet werden.
Tim