Stellen Sie sich vor, ein Forscher untersucht einen Datensatz und führt 1000 verschiedene Regressionen durch und findet eine interessante Beziehung zwischen ihnen.
Stellen Sie sich nun vor, ein anderer Forscher mit denselben Daten führt nur eine Regression aus, und es stellt sich heraus, dass der andere Forscher 1000 Regressionen durchgeführt hat, um diese zu finden. Forscher 2 kennt Forscher 1 nicht.
Sollte Forscher 1 andere Schlussfolgerungen ziehen als Forscher 2? Warum? Soll beispielsweise Forscher 1 eine Mehrfachvergleichskorrektur durchführen, Forscher 2 jedoch nicht?
Wenn Forscher 2 Ihnen zuerst seine einzelne Regression zeigen würde, welche Schlussfolgerungen würden Sie daraus ziehen? Wenn Ihnen dieser Forscher 1 seine Ergebnisse gezeigt hat, sollten Sie dann Ihre Schlussfolgerung ändern? Wenn ja, warum sollte es wichtig sein?
PS 1 : Wenn das Problem durch das Sprechen über hypothetische Forscher abstrakt wird, denken Sie darüber nach: Stellen Sie sich vor, Sie haben nur eine Regression für Ihre Arbeit durchgeführt und dabei die beste verfügbare Methode angewendet. Dann untersuchte ein anderer Forscher 1000 verschiedene Regressionen mit denselben Daten, bis er genau dieselbe Regression fand, die Sie ausgeführt haben . Sollten Sie zwei unterschiedliche Schlussfolgerungen ziehen? Sind die Beweise für beide Fälle gleich oder nicht? Sollten Sie Ihre Schlussfolgerung ändern, wenn Sie die Ergebnisse der anderen Forscher kennen? Wie soll die Öffentlichkeit die Evidenz der beiden Studien bewerten?
PS 2: Bitte versuchen Sie genau zu sein und wenn möglich eine mathematisch / theoretische Begründung zu liefern!
quelle
Antworten:
Hier ist meine "Bayes'sche" Neigung zu Ihrer Frage. Ich denke, Sie haben eine Situation beschrieben, in der zwei Personen mit unterschiedlichen Vorinformationen eine unterschiedliche Antwort / Schlussfolgerung erhalten sollten, wenn sie denselben Datensatz erhalten. Ein stumpferes / extremeres Beispiel ist die Annahme, dass wir einen "Forscher 1b" haben, der zufällig die Parameter und Schlussfolgerungen des Regressionsmodells aus einer beliebigen Hypothese errät. Das Ausführen von Regressionen ist konzeptionell nicht allzu weit vom Erraten entfernt.1000
Was passiert meiner Meinung nach ... was erfahren wir über die vorherigen Informationen der Forscher aus der obigen Frage? - Forscher 1 hat wahrscheinlich eine flache Priorität für die Modelle - Forscher 2 hat eine scharfe Priorität für das Modell von InteresseP(P( Mk| ich1) = 11000 (angenommen, M 1 ist das Modell, zu dem beide passen)P( M1| ich2) = 1 M1
Dies ist natürlich eine Vereinfachung, aber Sie sehen hier, wir legen bereits viel mehr Wert auf die Schlussfolgerungen von Forscher 2 ohne Daten. Aber sehen Sie, sobald sie beide , berücksichtigen die Daten, Forscher 1en - posteriori - Wahrscheinlichkeit für erhöht ... P ( M 1 | D I ) > > P ( MM1 (... wir wissen dasweil es war "besser" als 999 andere Modelle ...). Der hintere Teil von Forscher 2 kann sich nicht mehr konzentrieren, er ist bereits gleich 1 . Was wir nicht wissen istwie vieldie Daten unterstützt MP( M1| Dich) > > P( M1| ich) 999 1 über die Alternativen. Was wir auch nicht wissen, ist, wie die verschiedenen Modelle die inhaltlichen Schlussfolgerungen von Forscher 1 ändern. Nehmen wir beispielsweise an, dass alle 1000 Modelle einen gemeinsamen Term enthalten und alle 1000 Regressionsparameter für diese Variable signifikant größer als 0 sind (z. B. p - v a l u e < 10 - 8 für alle Modelle). Dann ist es kein Problem, einen deutlich positiven Effekt zu erzielen, obwohl viele Modelle fit waren.M1 1000 1000 0 p - v a l u e < 10- 8
Sie sagen auch nicht, wie groß der Datensatz ist, und das ist wichtig! Wenn es sich um einen Datensatz mit Beobachtungen und 10 Kovariaten / Prädiktoren / unabhängigen Variablen handelt, ist Forscher 1 über das Modell wahrscheinlich noch recht unsicher. Wenn jedoch Forscher 1 mit 2 , 000 , 000 Beobachtungen, kann dies eindeutig das Modell bestimmen.100 10 2 , 000 , 000
Grundsätzlich stimmt nichts mit zwei Personen überein, die mit unterschiedlichen Informationen beginnen und nach dem Anzeigen derselben Daten weiterhin unterschiedliche Schlussfolgerungen ziehen. Wenn Sie jedoch dieselben Daten sehen, rücken Sie näher zusammen, vorausgesetzt, ihr "Modellraum" überlappt und die Daten unterstützen diesen "Überlappungsbereich".
quelle
Die statistische Interpretation ist viel weniger klar als die mathematische Behandlung.
In der Mathematik geht es um klar definierte Probleme. ZB ein perfekter Würfelwurf oder das Ziehen von Bällen aus einer Urne.
Statistik ist angewandte Mathematik, bei der die Mathematik eine Richtlinie darstellt, jedoch nicht die (exakte) Lösung darstellt.
In diesem Fall ist es offensichtlich, dass die Umstände eine wichtige Rolle spielen. Wenn wir eine Regression durchführen und dann einen p-Wert berechnen (Mathematik), um die Stärke auszudrücken, wie lautet dann die Interpretation (Statistik) und der Wert des p-Werts?
Bei den 1000 von Forscher 1 durchgeführten Regressionen ist das Ergebnis viel schwächer, da diese Art von Situation auftritt, wenn wir keine wirkliche Ahnung haben und nur die Daten untersuchen. Der p-Wert ist nur ein Hinweis darauf, dass möglicherweise etwas vorhanden ist.
Daher ist der p-Wert in der von Forscher 1 durchgeführten Regression offensichtlich weniger wert. Wenn Forscher 1 oder jemand, der die Ergebnisse von Forscher 1 verwendet, etwas mit der Regression tun möchten, muss der p-Wert korrigiert werden. (Und wenn Sie der Meinung sind, dass der Unterschied zwischen Forscher 1 und Forscher 2 nicht ausreicht, denken Sie einfach an die Vielzahl von Möglichkeiten, die Forscher 1 zur Korrektur des p-Werts für mehrere Vergleiche bietet.)
Im Fall der von Forscher 2 durchgeführten einzelnen Regression ist das Ergebnis viel aussagekräftiger. Aber das liegt daran, dass die Regression nicht von alleine ist. Wir müssen die Gründe angeben, warum Forscher 2 nur eine einzige Regression durchgeführt hat. Dies könnte daran liegen, dass er gute (zusätzliche) Gründe hatte, bereits anzunehmen, dass die einzelne Regression ein gutes Modell für die Daten ist.
Die Einstellung der von Forscher 1 und 2 durchgeführten Regressionen ist sehr unterschiedlich, und es kommt nicht oft vor, dass Sie beide gleichzeitig für dasselbe Problem antreffen . Wenn dies der Fall ist, dann auch nicht
Forscher 2 hatte großes Glück
Dies ist nicht so ungewöhnlich, und wir sollten dies besser korrigieren, wenn wir Literatur interpretieren, und wir sollten die Veröffentlichung des Gesamtbildes der Forschung verbessern. Wenn es tausend Forscher wie Forscher 2 gibt und nur einer von ihnen einen Erfolg verzeichnen wird, können wir irrtümlicherweise annehmen, dass wir keinen Fall wie Forscher 1 hatten, weil wir die Fehler der anderen 999 Forscher nicht gesehen haben
Forscher 1 war nicht so schlau und machte eine unglaublich überflüssige Suche nach einer Regression, während er möglicherweise von Anfang an wusste, dass es sich um eine einzelne handeln sollte, und er hätte einen stärkeren Test durchführen können.
Für Außenstehende, die schlauer als Forscher 1 sind (die zusätzlichen 999 Regressionen von Anfang an nicht berücksichtigen) und etwas über die Arbeit lesen, könnten sie der Aussagekraft der Ergebnisse mehr Kraft verleihen, aber immer noch nicht so stark wie er es für das tun würde Ergebnis des Forschers 2.
Während der Forscher 1 möglicherweise zu konservativ war, als er 999 überflüssige zusätzliche Regressionen korrigierte, können wir die Tatsache nicht ignorieren, dass die Forschung in einem Wissensvakuum durchgeführt wurde und es viel wahrscheinlicher ist, einen glücklichen Forscher des Typs 1 als den Typ zu finden 2.
Eine interessante verwandte Geschichte: In der Astronomie, als sie ein besseres Instrument planten, um den kosmischen Hintergrund mit höherer Präzision zu messen, sprachen sich Forscher dafür aus, nur die Hälfte der Daten freizugeben. Dies liegt daran, dass nur eine Aufnahme zum Sammeln von Daten vorhanden ist. Nachdem alle Regressionen von Dutzenden verschiedener Forscher durchgeführt wurden (und aufgrund der unglaublichen Variation und Kreativität des Theoretikers gibt es mit Sicherheit eine Anpassung für jeden möglichen, zufälligen Datenfehler), gibt es keine Möglichkeit, a durchzuführen neues Experiment zur Überprüfung (sofern Sie nicht in der Lage sind, ein ganz neues Universum zu generieren).
quelle
Kurzgeschichte: Wir haben nicht genügend Informationen, um Ihre Frage zu beantworten, da wir nichts über die verwendeten Methoden oder die gesammelten Daten wissen.
Lange Antwort ... Die eigentliche Frage hier ist, ob jeder Forscher tut:
Ihre Methoden bestimmen die Stärke der Interpretation ihrer Ergebnisse. Dies liegt daran, dass einige Methoden weniger gut sind als andere.
In der rigorosen Wissenschaft entwickeln wir eine Hypothese, identifizieren verwirrende Variablen, entwickeln Kontrollen für Variablen außerhalb unserer Hypothese, planen Testmethoden, planen unsere analytische Methodik, führen Tests durch / sammeln Daten und analysieren dann Daten. (Beachten Sie, dass die Analysemethoden vor dem Test geplant sind.) Dies ist das strengste, da wir Daten und Analysen akzeptieren müssen, die nicht mit der Hypothese übereinstimmen. Es ist nicht akzeptabel, Methoden nachträglich zu ändern, um etwas Interessantes zu erhalten. Jede neue Hypothese aus den Ergebnissen muss denselben Prozess erneut durchlaufen.
In der Pseudowissenschaft nehmen wir oft Daten, die bereits gesammelt wurden. Dies ist ethisch schwieriger anzuwenden, da es einfacher ist, Verzerrungen zu den Ergebnissen hinzuzufügen. Es ist jedoch weiterhin möglich, die wissenschaftliche Methode für ethische Analysten zu befolgen. Es kann jedoch schwierig sein, geeignete Kontrollen einzurichten, und dies muss untersucht und notiert werden.
Die Erforschung von Daten basiert nicht auf wissenschaftlichen Erkenntnissen. Es gibt keine spezifische Hypothese. Es gibt keine a priori Bewertung von Störfaktoren. Außerdem ist es schwierig, die Analyse mit denselben Daten erneut durchzuführen, da die Ergebnisse möglicherweise durch Vorwissen oder Modellierung beeinträchtigt werden und keine neuen Daten zur Validierung verfügbar sind. Ein rigoroses wissenschaftliches Experiment wird empfohlen, um mögliche Zusammenhänge zu klären, die sich aus einer explorativen Analyse ergeben.
Beim Datenbaggern oder P-Hacking führt ein „Analyst“ mehrere Tests durch, in der Hoffnung, dass eine unerwartete oder unbekannte Antwort vorliegt, oder manipuliert die Daten, um ein Ergebnis zu erzielen. Die Ergebnisse können ein einfacher Zufall sein, können das Ergebnis einer Verwechslung von Variablen sein oder haben möglicherweise keine bedeutsame Effektgröße oder -stärke.
Für jedes Problem gibt es einige Abhilfemaßnahmen, die jedoch sorgfältig abgewogen werden müssen.
quelle