Ich bin sehr neu in der Statistik und lerne gerade, die Grundlagen zu verstehen, einschließlich der Werte. Aber ich habe gerade ein großes Fragezeichen im Kopf und hoffe, dass mein Verständnis falsch ist. Hier ist mein Denkprozess:
Sind nicht alle Forschungen auf der Welt ähnlich wie die Affen im "Satz der unendlichen Affen"? Bedenken Sie, dass es weltweit 23887 Universitäten gibt. Wenn jede Universität 1000 Studenten hat, sind das 23 Millionen Studenten pro Jahr.
Nehmen wir an, dass jedes Jahr mindestens ein Forschungsprojekt mit einem Hypothesentest mit .
Bedeutet das nicht, dass selbst wenn alle Forschungsproben einer zufälligen Population entnommen würden, etwa 5% von ihnen "die Nullhypothese als ungültig ablehnen" würden. Beeindruckend. Denk darüber nach. Das sind ungefähr eine Million Forschungsarbeiten pro Jahr, die aufgrund "signifikanter" Ergebnisse veröffentlicht werden.
Wenn es so funktioniert, ist das beängstigend. Dies bedeutet, dass ein Großteil der "wissenschaftlichen Wahrheit", die wir für selbstverständlich halten, auf reiner Zufälligkeit beruht.
Ein einfacher Teil des R-Codes scheint mein Verständnis zu unterstützen:
library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]
So funktioniert dieser Artikel über erfolgreiches Fischen: Ich habe Millionen zum Nachdenken über Schokolade getäuscht, um beim Abnehmen zu helfen . Hier ist wie .
Ist das wirklich alles? Soll "Wissenschaft" so funktionieren?
quelle
Antworten:
Dies ist sicherlich ein berechtigtes Anliegen, aber das ist nicht ganz richtig.
Wenn 1.000.000 Studien durchgeführt wurden und alle Nullhypothesen zutreffen, werden ca. 50.000 bei p <0,05 signifikante Ergebnisse erzielen. Das ist es, was ein Wert bedeutet. Die Null ist jedoch im Grunde nie genau richtig. Aber selbst wenn wir es auf "fast wahr" oder "ungefähr richtig" oder etwas Ähnliches reduzieren, würde dies bedeuten, dass sich die 1.000.000 Studien alle mit Dingen wie befassen müssten
und so weiter. Unsinn.
Ein Problem ist natürlich, dass wir nicht wissen, welche Nullen wahr sind. Ein weiteres Problem ist das in seinem Kommentar erwähnte @Glen_b - das Problem mit der Dateiausgabe.
Aus diesem Grund mag ich Robert Abelsons Ideen so sehr, dass er sie in der Statistik als prinzipielles Argument ausdrückt . Das heißt, statistische Nachweise sollten Teil eines grundsätzlichen Arguments darüber sein, warum etwas der Fall ist, und sollten nach den MAGIC-Kriterien beurteilt werden:
quelle
Denken Sie daran, Wissenschaftler sind kritisch NICHT wie unendliche Affen, weil ihr Forschungsverhalten - insbesondere das Experimentieren - alles andere als zufällig ist. Experimente sind (zumindest) unglaublich sorgfältig kontrollierte Manipulationen und Messungen, die auf mechanistisch fundierten Hypothesen beruhen, die auf einer Vielzahl früherer Forschungen aufbauen. Es sind nicht nur zufällige Aufnahmen im Dunkeln (oder Affenfinger auf Schreibmaschinen).
Diese Schätzung für die Anzahl der veröffentlichten Forschungsergebnisse muss weit entfernt sein. Ich weiß nicht, ob es 23 Millionen "Universitätsstudenten" auf der Welt gibt (schließt das auch Universitäten oder Hochschulen ein?), Aber ich weiß, dass die überwiegende Mehrheit von ihnen niemals wissenschaftliche Erkenntnisse veröffentlicht. Ich meine, die meisten von ihnen sind keine wissenschaftlichen Majors, und selbst die meisten wissenschaftlichen Majors veröffentlichen niemals Ergebnisse.
Eine wahrscheinlichere Schätzung (einige Diskussionen ) für die Anzahl der wissenschaftlichen Veröffentlichungen pro Jahr liegt bei 1 bis 2 Millionen.
Beachten Sie, dass nicht alle veröffentlichten Forschungsergebnisse Statistiken enthalten, bei denen die Signifikanz bei p = 0,05 liegt. Oft sieht man p-Werte wie p <0,01 oder sogar p <0,001. Ich weiß natürlich nicht, wie hoch der "mittlere" p-Wert bei über einer Million Papieren liegt.
Bedenken Sie auch, dass Wissenschaftler eine kleine Anzahl von Ergebnissen bei p um 0,05 eigentlich nicht als "wissenschaftliche Wahrheit" ansehen sollten. Nicht annähernd. Die Wissenschaftler sollen über viele Studien hinweg integrieren, von denen jede eine angemessene statistische Aussagekraft, einen plausiblen Mechanismus, Reproduzierbarkeit, Wirkungsstärke usw. aufweist, und diese in ein vorläufiges Modell der Funktionsweise eines Phänomens einbeziehen.
Bedeutet das aber, dass fast die gesamte Wissenschaft korrekt ist? Auf keinen Fall. Wissenschaftler sind Menschen und werden von Vorurteilen, schlechten Forschungsmethoden (einschließlich unsachgemäßer statistischer Ansätze), Betrug, einfachem menschlichem Versagen und Pech heimgesucht. Wahrscheinlich dominanter in der Frage, warum ein gesunder Teil der veröffentlichten Wissenschaft falsch ist, sind diese Faktoren und nicht die Konvention p <0,05. Lassen Sie uns einfach auf den Punkt kommen und eine noch "beängstigendere" Aussage machen als die, die Sie gemacht haben:
Warum die meisten veröffentlichten Forschungsergebnisse falsch sind
quelle
Vgl. Z. B. die jüngste Diskussion eines Artikels von David Colquhoun aus dem Jahr 2014: Verwechslung mit falscher Entdeckungsrate und mehrfachen Tests (zu Colquhoun 2014) . Ich habe dort gegen diese "mindestens 30%" Schätzung gestritten, aber ich stimme zu, dass in einigen Bereichen der Forschung die Rate falscher Entdeckungen viel höher als 5% sein kann. Das ist in der Tat besorgniserregend.
Ich glaube nicht, dass es hier hilft, wenn man sagt, dass Null fast nie wahr ist. Fehler vom Typ S und Typ M (wie von Andrew Gelman eingeführt) sind nicht viel besser als Fehler vom Typ I / II.
Ich denke, was es wirklich bedeutet, ist, dass man niemals einem isolierten "signifikanten" Ergebnis trauen sollte.
quelle
Ihre Sorge ist genau die Sorge, die einem Großteil der gegenwärtigen wissenschaftlichen Diskussion über Reproduzierbarkeit zugrunde liegt. Der wahre Sachverhalt ist jedoch etwas komplizierter, als Sie vermuten.
Lassen Sie uns zunächst eine Terminologie festlegen. Das Testen der Signifikanz von Nullhypothesen kann als Signalerkennungsproblem verstanden werden - die Nullhypothese ist entweder wahr oder falsch, und Sie können sie entweder ablehnen oder beibehalten. Die Kombination von zwei Entscheidungen und zwei möglichen "wahren" Sachverhalten ergibt die folgende Tabelle, die die meisten Menschen zu einem bestimmten Zeitpunkt sehen, wenn sie zum ersten Mal Statistiken lernen:
Wissenschaftler, die Nullhypothesen-Signifikanztests verwenden, versuchen, die Anzahl der richtigen Entscheidungen (in Blau dargestellt) zu maximieren und die Anzahl der falschen Entscheidungen (in Rot dargestellt) zu minimieren. Berufstätige Wissenschaftler versuchen auch, ihre Ergebnisse zu veröffentlichen, damit sie eine Anstellung finden und ihre Karriere vorantreiben können.
Publikationsbias
Freiheitsgrade der Forscher
Es ist wichtig zu beachten, dass die missbräuchliche Verwendung von Freiheitsgraden für Forscher (die manchmal als fragwürdige Forschungspraxis bezeichnet wird; Martinson, Anderson & de Vries, 2005 ) nicht mit der Erstellung von Daten identisch ist. In einigen Fällen ist es das Richtige, Ausreißer auszuschließen, entweder weil die Ausrüstung ausfällt oder aus einem anderen Grund. Das Hauptproblem besteht darin, dass bei Vorhandensein von Freiheitsgraden für Forscher die während der Analyse getroffenen Entscheidungen häufig davon abhängen, wie sich die Daten entwickeln ( Gelman & Loken, 2014)), auch wenn den betreffenden Forschern dies nicht bekannt ist. Solange Forscher die Freiheitsgrade von Forschern (bewusst oder unbewusst) verwenden, um die Wahrscheinlichkeit eines signifikanten Ergebnisses zu erhöhen (möglicherweise weil signifikante Ergebnisse "publizierbarer" sind), wird das Vorhandensein von Freiheitsgraden von Forschern eine Forschungsliteratur mit falsch positiven Ergebnissen in überfüllen genauso wie Publikationsbias.
Eine wichtige Einschränkung der obigen Diskussion ist, dass wissenschaftliche Arbeiten (zumindest in der Psychologie, die mein Fachgebiet ist) selten aus einzelnen Ergebnissen bestehen. Häufiger sind mehrere Studien, von denen jede mehrere Tests umfasst. Der Schwerpunkt liegt darauf, ein größeres Argument aufzubauen und alternative Erklärungen für die vorgelegten Beweise auszuschließen. Die selektive Präsentation von Ergebnissen (oder das Vorhandensein von Freiheitsgraden für Forscher) kann jedoch ebenso leicht zu Verzerrungen in einer Reihe von Ergebnissen führen wie ein einzelnes Ergebnis. Es gibt Hinweise darauf, dass die in Studienarbeiten präsentierten Ergebnisse oft viel sauberer und aussagekräftiger sind, als man erwarten würde, selbst wenn alle Vorhersagen dieser Studien wahr wären ( Francis, 2013 ).
Fazit
Grundsätzlich stimme ich Ihrer Intuition zu, dass das Testen der Signifikanz von Nullhypothesen schief gehen kann. Ich würde jedoch argumentieren, dass die wahren Übeltäter, die eine hohe Rate an Fehlalarmen verursachen, Prozesse wie Publikationsbias und die Anwesenheit von Freiheitsgraden für Forscher sind. In der Tat sind sich viele Wissenschaftler dieser Probleme bewusst, und die Verbesserung der wissenschaftlichen Reproduzierbarkeit ist ein sehr aktives aktuelles Diskussionsthema (z. B. Nosek & Bar-Anan, 2012 ; Nosek, Spies & Motyl, 2012 ). Sie sind also mit Ihren Bedenken in guter Gesellschaft, aber ich denke, es gibt auch Gründe für vorsichtigen Optimismus.
Verweise
Stern, JM & Simes, RJ (1997). Publikationsbias: Hinweise auf eine verspätete Veröffentlichung in einer Kohortenstudie klinischer Forschungsprojekte. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640
K. Dwan, DG Altman, JA Arnaiz, J. Bloom, A. Chan, E. Cronin, PR Williamson (2008). Systematische Überprüfung der empirischen Evidenz der Verzerrung der Studienpublikation und der Verzerrung der Ergebnisberichterstattung. PLoS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081
Rosenthal, R. (1979). Das Problem mit der Dateiausgabe und die Toleranz für Nullergebnisse. Psychological Bulletin, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638
Simmons, JP, Nelson, LD & Simonsohn, U. (2011). Falsch-Positive-Psychologie: Die nicht offen gelegte Flexibilität bei der Datenerfassung und -analyse ermöglicht es, alles als signifikant darzustellen. Psychological Science, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632
Martinson, BC, Anderson, MS & de Vries, R. (2005). Wissenschaftler benehmen sich schlecht. Nature, 435, 737–738. http://doi.org/10.1038/435737a
Gelman, A. & Loken, E. (2014). Die statistische Krise in der Wissenschaft. American Scientist, 102, 460 & ndash; 465.
Francis, G. (2013). Replikation, statistische Konsistenz und Publikationsbias. Journal of Mathematical Psychology, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003
Nosek, BA & Bar-Anan, Y. (2012). Wissenschaftliche Utopie: I. Eröffnung der wissenschaftlichen Kommunikation. Psychological Inquiry, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215
Nosek, BA, Spies, JR & Motyl, M. (2012). Wissenschaftliche Utopie: II. Umstrukturierung von Anreizen und Praktiken zur Förderung der Wahrheit über die Publizierbarkeit. Perspectives on Psychological Science, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058
quelle
Eine wesentliche Überprüfung der in dieser Frage aufgeworfenen wichtigen Frage ist, dass "wissenschaftliche Wahrheit" nicht auf einzelnen, isolierten Veröffentlichungen beruht. Wenn ein Ergebnis interessant genug ist, werden andere Wissenschaftler aufgefordert, die Auswirkungen des Ergebnisses zu untersuchen. Diese Arbeit wird in der Regel die ursprüngliche Feststellung bestätigen oder widerlegen. In einer Einzelstudie besteht möglicherweise eine Wahrscheinlichkeit von 1/20, eine echte Nullhypothese abzulehnen, aber nur eine Wahrscheinlichkeit von 1/400, dies zweimal hintereinander zu tun.
Wenn Wissenschaftler einfach Experimente wiederholen, bis sie "Signifikanz" finden und dann ihre Ergebnisse veröffentlichen, könnte das Problem so groß sein, wie es das OP vorschlägt. Aber so funktioniert Wissenschaft nicht, jedenfalls aufgrund meiner fast 50-jährigen Erfahrung in der biomedizinischen Forschung. Darüber hinaus handelt eine Veröffentlichung selten von einem einzelnen "signifikanten" Experiment, sondern basiert auf einer Reihe miteinander in Beziehung stehender Experimente (von denen jedes für sich genommen "signifikant" sein muss), die zusammen eine breitere, inhaltliche Hypothese stützen.
Ein viel größeres Problem kommt von Wissenschaftlern, die sich zu sehr ihren eigenen Hypothesen verschrieben haben. Sie können dann die Implikationen einzelner Experimente überinterpretieren, um ihre Hypothesen zu untermauern, zweifelhafte Datenbearbeitungen vornehmen (wie das willkürliche Entfernen von Ausreißern) oder (wie ich gesehen und beim Auffangen geholfen habe) nur die Daten zusammenstellen.
Die Wissenschaft ist jedoch ein äußerst sozialer Prozess, ungeachtet der Mythologie über verrückte Wissenschaftler, die sich hoch oben in Elfenbeintürmen verstecken. Das Geben und Nehmen unter Tausenden von Wissenschaftlern, die ihre Interessen verfolgen, basierend auf dem, was sie aus der Arbeit anderer gelernt haben, ist der ultimative institutionelle Schutz vor falschen Positiven. Falsche Ergebnisse können manchmal jahrelang aufrechterhalten werden, aber wenn ein Problem ausreichend wichtig ist, werden die falschen Schlussfolgerungen letztendlich vom Prozess identifiziert.
quelle
Um die Diskussion zu erweitern, hier ein interessanter Beitrag und eine anschließende Diskussion darüber, wie Menschen p-value häufig missverstehen.
Was auf jeden Fall beibehalten werden sollte, ist, dass ein p-Wert nur ein Maß für die Beweiskraft bei der Zurückweisung einer bestimmten Hypothese ist. Ein p-Wert ist definitiv keine harte Schwelle, unterhalb derer etwas "wahr" ist und oberhalb derer es nur zufällig ist. Wie in dem Beitrag erklärt, auf den oben verwiesen wurde:
quelle
Wie auch in den anderen Antworten ausgeführt, führt dies nur dann zu Problemen, wenn Sie die positiven Ergebnisse, bei denen die Nullhypothese ausgeschlossen ist, selektiv betrachten. Aus diesem Grund schreiben Wissenschaftler Übersichtsartikel, in denen sie bereits veröffentlichte Forschungsergebnisse berücksichtigen und versuchen, auf dieser Grundlage ein besseres Verständnis für das Thema zu entwickeln. Es bleibt jedoch dann immer noch ein Problem, das auf die sogenannte "Publikationsverzerrung" zurückzuführen ist, dh Wissenschaftler schreiben eher einen Artikel über ein positives Ergebnis als über ein negatives Ergebnis, auch eine Abhandlung über ein negatives Ergebnis Es ist wahrscheinlicher, dass eine Veröffentlichung abgelehnt wird, als ein Artikel über ein positives Ergebnis.
Besonders in Bereichen, in denen statistische Tests von großer Bedeutung sind, wird dies ein großes Problem darstellen. Das Gebiet der Medizin ist ein berüchtigtes Beispiel. Aus diesem Grund wurde vorgeschrieben, klinische Studien zu registrieren, bevor sie durchgeführt werden (z . B. hier ). Sie müssen also die Einrichtung, die Durchführung der statistischen Analyse usw. usw. erläutern, bevor der Test beginnt. Die führenden medizinischen Fachzeitschriften lehnen es ab, Artikel zu veröffentlichen, wenn die Studien, über die sie berichten, nicht registriert sind.
Leider funktioniert das System trotz dieser Maßnahme nicht so gut .
quelle
Dies kommt einer sehr wichtigen Tatsache in Bezug auf die wissenschaftliche Methode nahe: Sie betont die Fälschbarkeit. Die heute populärste Wissenschaftsphilosophie hat Karl Poppers Konzept der Fälschbarkeit als Eckpfeiler.
Der grundlegende wissenschaftliche Prozess ist also:
Jeder kann jederzeit jede Theorie beanspruchen, die er will. Die Wissenschaft wird jede Theorie zugeben, die "fälschbar" ist. Der wörtlichste Sinn dieses Wortes ist, dass diese Person, wenn jemand anderes die Behauptung nicht mag, die Ressourcen ausgeben kann, um die Behauptung zu widerlegen. Wenn Sie nicht glauben, dass Argyle-Socken Krebs heilen, können Sie Ihre eigene medizinische Abteilung nutzen, um dies zu widerlegen.
Da diese Eintrittsbarriere monumental niedrig ist, ist es traditionell so, dass "Wissenschaft" als kulturelle Gruppe keine wirkliche Idee hat, bis Sie sich "gut bemüht" haben, Ihre eigene Theorie zu verfälschen.
Die Akzeptanz von Ideen erfolgt in der Regel schrittweise. Sie können Ihr Konzept in einen Zeitschriftenartikel mit einer Studie und einem relativ niedrigen p-Wert umwandeln. Was das Ihnen bringt, ist Werbung und Glaubwürdigkeit. Wenn jemand an Ihrer Idee interessiert ist, beispielsweise wenn Ihre Wissenschaft technische Anwendungen hat, kann er sie verwenden. Zu diesem Zeitpunkt ist es wahrscheinlicher, dass sie eine zusätzliche Fälschungsrunde finanzieren.
Dieser Prozess geht vorwärts, immer mit der gleichen Einstellung: Glauben Sie, was Sie wollen, aber um es Wissenschaft zu nennen, muss ich es später widerlegen können.
Dieser niedrige Einstiegsstrich macht ihn so innovativ. Es gibt also eine große Anzahl von theoretisch "falschen" Zeitschriftenartikeln. Der Schlüssel ist jedoch, dass jeder veröffentlichte Artikel theoretisch fälschbar ist, sodass zu jedem Zeitpunkt jemand das Geld ausgeben kann, um ihn zu testen.
Dies ist der Schlüssel: Zeitschriften enthalten nicht nur Dinge, die einen vernünftigen p-Test bestehen, sondern sie enthalten auch die Schlüssel, mit denen andere sie zerlegen können, wenn sich herausstellt, dass die Ergebnisse falsch sind.
quelle
So funktionieren viele Sozialwissenschaften. Nicht so sehr mit den Naturwissenschaften. Denken Sie daran: Sie haben Ihre Frage auf einem Computer eingegeben. Die Menschen waren in der Lage, diese komplizierten Tiere, die Computer genannt werden, mit den Kenntnissen der Physik, Chemie und anderer Gebiete der Naturwissenschaften zu bauen. Wenn die Situation so schlimm wäre, wie Sie es beschreiben, würde keine Elektronik funktionieren. Oder denken Sie an die Dinge wie eine Masse eines Elektrons, die mit wahnsinniger Präzision bekannt ist. Sie passieren Milliarden von Logikgattern in einem Computer, und Ihr Computer funktioniert noch immer und funktioniert jahrelang.
UPDATE: Um auf die Abwärtsstimmen zu antworten, die ich erhalten habe, fühlte ich mich inspiriert, Ihnen ein paar Beispiele zu geben.
Der erste stammt aus der Physik: Bystritsky, VM, et al. " Messung der astrophysikalischen S-Faktoren und der Querschnitte der p (d, γ) 3He-Reaktion im ultraniedrigen Energiebereich unter Verwendung eines Zirkonium-Deuterid-Targets ." Physik der Teilchen und Kernbuchstaben 10.7 (2013): 717-722.
Mein nächstes Beispiel stammt aus der ... Psychologie: Paustian-Underdahl, Samantha C., Lisa Slattery Walker und David J. Woehr. " Geschlecht und Wahrnehmung von Führungseffektivität: Eine Metaanalyse kontextbezogener Moderatoren ." Journal of Applied Psychology, 2014, Vol. 99, Nr. 6, 1129–1145.
Schauen Sie sich nun einige Papiertabellen an und raten Sie, von welchen Papieren sie stammen:
Das ist die Antwort, warum Sie in einem Fall "coole" Statistiken benötigen und in einem anderen Fall nicht: weil die Daten entweder beschissen sind oder nicht. Wenn Sie über gute Daten verfügen, benötigen Sie nur Standardfehler.
UPDATE2: @ PatrickS.Forscher hat im Kommentar eine interessante Aussage gemacht:
Ich muss nicht zustimmen. In Wirtschaft und Finanzen sind die Theorien überhaupt nicht "weich". Sie können in diesen Feldern nach dem Zufallsprinzip nach einem Artikel suchen und so etwas abrufen:
und so weiter.
Es ist von Schervish, Mark J., Teddy Seidenfeld und Joseph B. Kadane. " Erweiterungen der erwarteten Nützlichkeitstheorie und einige Einschränkungen paarweiser Vergleiche ." (2003). Sieht das für dich weich aus?
Ich wiederhole hier meinen Punkt: Wenn Ihre Theorien nicht gut sind und die Daten beschissen sind, können Sie die schwierigste Mathematik anwenden und trotzdem ein beschissenes Ergebnis erzielen.
In diesem Artikel geht es um Versorgungsleistungen, das Konzept von Glück und Zufriedenheit - absolut unbeobachtbar. Es ist wie das, was ein Nutzen ist, ein Haus zu haben oder einen Cheeseburger zu essen? Vermutlich gibt es diese Funktion, bei der Sie "Cheeseburger essen" oder "Im eigenen Haus wohnen" einstecken können, und die Funktion wird in einigen Einheiten die Antwort ausspucken. So verrückt das auch klingen mag, dank von Neuman baut die moderne Wirtschaft auf ihr auf.
quelle