Forscher 1 führt 1000 Regressionen aus, Forscher 2 führt nur 1 aus, beide führen zu denselben Ergebnissen - sollten sie unterschiedliche Schlussfolgerungen ziehen?

12

Stellen Sie sich vor, ein Forscher untersucht einen Datensatz und führt 1000 verschiedene Regressionen durch und findet eine interessante Beziehung zwischen ihnen.

Stellen Sie sich nun vor, ein anderer Forscher mit denselben Daten führt nur eine Regression aus, und es stellt sich heraus, dass der andere Forscher 1000 Regressionen durchgeführt hat, um diese zu finden. Forscher 2 kennt Forscher 1 nicht.

Sollte Forscher 1 andere Schlussfolgerungen ziehen als Forscher 2? Warum? Soll beispielsweise Forscher 1 eine Mehrfachvergleichskorrektur durchführen, Forscher 2 jedoch nicht?

Wenn Forscher 2 Ihnen zuerst seine einzelne Regression zeigen würde, welche Schlussfolgerungen würden Sie daraus ziehen? Wenn Ihnen dieser Forscher 1 seine Ergebnisse gezeigt hat, sollten Sie dann Ihre Schlussfolgerung ändern? Wenn ja, warum sollte es wichtig sein?

PS 1 : Wenn das Problem durch das Sprechen über hypothetische Forscher abstrakt wird, denken Sie darüber nach: Stellen Sie sich vor, Sie haben nur eine Regression für Ihre Arbeit durchgeführt und dabei die beste verfügbare Methode angewendet. Dann untersuchte ein anderer Forscher 1000 verschiedene Regressionen mit denselben Daten, bis er genau dieselbe Regression fand, die Sie ausgeführt haben . Sollten Sie zwei unterschiedliche Schlussfolgerungen ziehen? Sind die Beweise für beide Fälle gleich oder nicht? Sollten Sie Ihre Schlussfolgerung ändern, wenn Sie die Ergebnisse der anderen Forscher kennen? Wie soll die Öffentlichkeit die Evidenz der beiden Studien bewerten?

PS 2: Bitte versuchen Sie genau zu sein und wenn möglich eine mathematisch / theoretische Begründung zu liefern!

statslearner
quelle
1
Um einen gültigen Vergleich zu erhalten, müssen Sie alle Null- und Alternativhypothesen angeben. Forscher 2 kann nur 1 Hypothese testen, während Forscher 1 wahrscheinlich die Wahrscheinlichkeit kontrollieren möchte, dass nicht 1 Fehler vom Typ 1 von 1000 gemacht wird. Wenn dies die gleichzeitige Folgerung ist, die Sie machen möchten, müssen Sie die p-Wert-Anpassung vornehmen. Forscher 2 hat einen Test und muss nicht angepasst werden. Für Forscher 1 passen Sie verschiedene Modelle an dieselben Daten an oder ein Modell für jeden der 1000 Datensätze?
Michael R. Chernick
1
@MichaelChernick Es gibt nur einen Datensatz. Forscher 1 passt 1000 Modelle für denselben Datensatz an, bis er den findet, der ihm gefällt. Forscher 2 passte nur 1. Beide Forscher verwenden die gleichen Daten. Würden Sie also sagen, dass diese beiden Forscher unterschiedliche Schlussfolgerungen mit genau demselben Datensatz ziehen müssten? Forscher 2 sollte sich seiner Analyse zu Recht sicher sein, während Forscher 1 seine p-Wert- / Konfidenzintervalle aufgrund mehrfacher Vergleiche aufblähen sollte.
Statistiklerner
Wenn Sie meinem Argument gefolgt sind, tun sie dies in dem Sinne, dass nur Forscher 2 eine einzelne Hypothese testet, während Forscher 1 1000 Hypothesen testet und alle von ihm getesteten Hypothesen kontrollieren muss. Es gibt zwei verschiedene Probleme. Was noch vage ist, meinst du mit "nur eine interessante Beziehung finden". Vielleicht glauben Sie, Sie hätten eine paradoxe Situation gehabt. Ich glaube nicht, dass Sie haben.
Michael R. Chernick
1
@MichaelChernick wie ist es nicht ein Paradoxon für exakt die gleichen Daten mit dem exakt gleichen Modell zu zwei unterschiedlichen Schlussfolgerungen zu führen? Wenn Sie die zwei getrennten Papiere lesen, was würden Sie daraus schließen?
Statslearner
1
@MichaelChernick Ich habe es getan, und ich finde es beunruhigend, dass Sie denken, dass dies richtig ist - genau dieselben Daten mit genau demselben Modell, was zu zwei unterschiedlichen Schlussfolgerungen führt. Siehe meine Kommentare zur Antwort.
Statslearner

Antworten:

3

Hier ist meine "Bayes'sche" Neigung zu Ihrer Frage. Ich denke, Sie haben eine Situation beschrieben, in der zwei Personen mit unterschiedlichen Vorinformationen eine unterschiedliche Antwort / Schlussfolgerung erhalten sollten, wenn sie denselben Datensatz erhalten. Ein stumpferes / extremeres Beispiel ist die Annahme, dass wir einen "Forscher 1b" haben, der zufällig die Parameter und Schlussfolgerungen des Regressionsmodells aus einer beliebigen Hypothese errät. Das Ausführen von Regressionen ist konzeptionell nicht allzu weit vom Erraten entfernt.1000

Was passiert meiner Meinung nach ... was erfahren wir über die vorherigen Informationen der Forscher aus der obigen Frage? - Forscher 1 hat wahrscheinlich eine flache Priorität für die Modelle - Forscher 2 hat eine scharfe Priorität für das Modell von InteresseP(P(Mk|ich1)=11000 (angenommen, M 1 ist das Modell, zu dem beide passen)P(M1|ich2)=1M1

Dies ist natürlich eine Vereinfachung, aber Sie sehen hier, wir legen bereits viel mehr Wert auf die Schlussfolgerungen von Forscher 2 ohne Daten. Aber sehen Sie, sobald sie beide , berücksichtigen die Daten, Forscher 1en - posteriori - Wahrscheinlichkeit für erhöht ... P ( M 1 | D I ) > > P ( MM1 (... wir wissen dasweil es war "besser" als 999 andere Modelle ...). Der hintere Teil von Forscher 2 kann sich nicht mehr konzentrieren, er ist bereits gleich 1 . Was wir nicht wissen istwie vieldie Daten unterstützt MP(M1|Dich)>>P(M1|ich)9991 über die Alternativen. Was wir auch nicht wissen, ist, wie die verschiedenen Modelle die inhaltlichen Schlussfolgerungen von Forscher 1 ändern. Nehmen wir beispielsweise an, dass alle 1000 Modelle einen gemeinsamen Term enthalten und alle 1000 Regressionsparameter für diese Variable signifikant größer als 0 sind (z. B. p - v a l u e < 10 - 8 für alle Modelle). Dann ist es kein Problem, einen deutlich positiven Effekt zu erzielen, obwohl viele Modelle fit waren.M1100010000p-veinlue<10-8

Sie sagen auch nicht, wie groß der Datensatz ist, und das ist wichtig! Wenn es sich um einen Datensatz mit Beobachtungen und 10 Kovariaten / Prädiktoren / unabhängigen Variablen handelt, ist Forscher 1 über das Modell wahrscheinlich noch recht unsicher. Wenn jedoch Forscher 1 mit 2 , 000 , 000 Beobachtungen, kann dies eindeutig das Modell bestimmen.100102,000,000

Grundsätzlich stimmt nichts mit zwei Personen überein, die mit unterschiedlichen Informationen beginnen und nach dem Anzeigen derselben Daten weiterhin unterschiedliche Schlussfolgerungen ziehen. Wenn Sie jedoch dieselben Daten sehen, rücken Sie näher zusammen, vorausgesetzt, ihr "Modellraum" überlappt und die Daten unterstützen diesen "Überlappungsbereich".

Wahrscheinlichkeitslogik
quelle
Der fundamentale Teil Ihrer Behauptung ist also, dass sie unterschiedliche Schlussfolgerungen ziehen sollten, weil sie unterschiedliche Prioritäten haben und nicht, weil sie "die Daten erforscht" haben, richtig?
Statistiklerner
Wie beurteilen Sie übrigens die Beweise? Würde es Sie interessieren, wie viele Modelle Forscher 1 gepasst haben? Wenn ja warum?
Statslearner
Die Nummer würde mich nicht unbedingt interessieren der passenden Modelle , aber ob das verwendete Modell mit Sicherheit bekannt ist oder nicht. Wie ich kurz erwähne, würde ich gerne wissen, ob es vernünftige Alternativen gibt. Wenn zum Beispiel Forscher 1 eine "Linienkugel" -Entscheidung über das Löschen / Hinzufügen einer Variablen treffen würde, würde ich dies gerne sehen.
Wahrscheinlichkeitsrechnung
1
Warum solltest du das erwähnte sehen wollen, würde das deine Prioritäten irgendwie ändern? Verwenden Sie ihn als Proxy für Sie vor? Mir ist nicht klar, welche Zuordnung Sie vornehmen. Warum sind die Gründe eines bestimmten Forschers für Ihre Schlussfolgerung von Bedeutung, da dies den Prozess der Datengenerierung überhaupt nicht beeinflusst?
Statslearner
1
Wir gehen davon aus, dass der Datensatz außerhalb des Forschers liegt, er hat ihn nicht erfasst, und beide Forscher verwenden dieselben Daten. Es scheint , die Gründe Erkenntnisse nicht in der Psychologie repliziert werden, weil sie nur lose Bedeutung Schwellen verwenden als der Standard von Beweisen einige verrückte Hypothese jeder vernünftige Mensch / Wissenschaftler sie finden würde , a priori lächerlich zu beurteilen. Nehmen wir unseren Fall hier, wenn die in unserem Beispiel getestete Hypothese etwas Lächerliches wie eine Machtstellung ist, wäre es wichtig, ob wir 1 oder 1000 Regressionen durchlaufen haben?
Statslearner
7

Die statistische Interpretation ist viel weniger klar als die mathematische Behandlung.

In der Mathematik geht es um klar definierte Probleme. ZB ein perfekter Würfelwurf oder das Ziehen von Bällen aus einer Urne.

Statistik ist angewandte Mathematik, bei der die Mathematik eine Richtlinie darstellt, jedoch nicht die (exakte) Lösung darstellt.

In diesem Fall ist es offensichtlich, dass die Umstände eine wichtige Rolle spielen. Wenn wir eine Regression durchführen und dann einen p-Wert berechnen (Mathematik), um die Stärke auszudrücken, wie lautet dann die Interpretation (Statistik) und der Wert des p-Werts?

  • Bei den 1000 von Forscher 1 durchgeführten Regressionen ist das Ergebnis viel schwächer, da diese Art von Situation auftritt, wenn wir keine wirkliche Ahnung haben und nur die Daten untersuchen. Der p-Wert ist nur ein Hinweis darauf, dass möglicherweise etwas vorhanden ist.

    Daher ist der p-Wert in der von Forscher 1 durchgeführten Regression offensichtlich weniger wert. Wenn Forscher 1 oder jemand, der die Ergebnisse von Forscher 1 verwendet, etwas mit der Regression tun möchten, muss der p-Wert korrigiert werden. (Und wenn Sie der Meinung sind, dass der Unterschied zwischen Forscher 1 und Forscher 2 nicht ausreicht, denken Sie einfach an die Vielzahl von Möglichkeiten, die Forscher 1 zur Korrektur des p-Werts für mehrere Vergleiche bietet.)

  • Im Fall der von Forscher 2 durchgeführten einzelnen Regression ist das Ergebnis viel aussagekräftiger. Aber das liegt daran, dass die Regression nicht von alleine ist. Wir müssen die Gründe angeben, warum Forscher 2 nur eine einzige Regression durchgeführt hat. Dies könnte daran liegen, dass er gute (zusätzliche) Gründe hatte, bereits anzunehmen, dass die einzelne Regression ein gutes Modell für die Daten ist.

  • Die Einstellung der von Forscher 1 und 2 durchgeführten Regressionen ist sehr unterschiedlich, und es kommt nicht oft vor, dass Sie beide gleichzeitig für dasselbe Problem antreffen . Wenn dies der Fall ist, dann auch nicht

    • Forscher 2 hatte großes Glück

      Dies ist nicht so ungewöhnlich, und wir sollten dies besser korrigieren, wenn wir Literatur interpretieren, und wir sollten die Veröffentlichung des Gesamtbildes der Forschung verbessern. Wenn es tausend Forscher wie Forscher 2 gibt und nur einer von ihnen einen Erfolg verzeichnen wird, können wir irrtümlicherweise annehmen, dass wir keinen Fall wie Forscher 1 hatten, weil wir die Fehler der anderen 999 Forscher nicht gesehen haben

    • Forscher 1 war nicht so schlau und machte eine unglaublich überflüssige Suche nach einer Regression, während er möglicherweise von Anfang an wusste, dass es sich um eine einzelne handeln sollte, und er hätte einen stärkeren Test durchführen können.

      Für Außenstehende, die schlauer als Forscher 1 sind (die zusätzlichen 999 Regressionen von Anfang an nicht berücksichtigen) und etwas über die Arbeit lesen, könnten sie der Aussagekraft der Ergebnisse mehr Kraft verleihen, aber immer noch nicht so stark wie er es für das tun würde Ergebnis des Forschers 2.

      Während der Forscher 1 möglicherweise zu konservativ war, als er 999 überflüssige zusätzliche Regressionen korrigierte, können wir die Tatsache nicht ignorieren, dass die Forschung in einem Wissensvakuum durchgeführt wurde und es viel wahrscheinlicher ist, einen glücklichen Forscher des Typs 1 als den Typ zu finden 2.

Eine interessante verwandte Geschichte: In der Astronomie, als sie ein besseres Instrument planten, um den kosmischen Hintergrund mit höherer Präzision zu messen, sprachen sich Forscher dafür aus, nur die Hälfte der Daten freizugeben. Dies liegt daran, dass nur eine Aufnahme zum Sammeln von Daten vorhanden ist. Nachdem alle Regressionen von Dutzenden verschiedener Forscher durchgeführt wurden (und aufgrund der unglaublichen Variation und Kreativität des Theoretikers gibt es mit Sicherheit eine Anpassung für jeden möglichen, zufälligen Datenfehler), gibt es keine Möglichkeit, a durchzuführen neues Experiment zur Überprüfung (sofern Sie nicht in der Lage sind, ein ganz neues Universum zu generieren).

Sextus Empiricus
quelle
1
+1 für @MartijnWeterings Wie ich in meinen Kommentaren sagte, war das Problem mathematisch nicht gut gestellt. Ich hatte den Eindruck, dass das OP der Meinung war, dass es ein Paradoxon gibt, weil die beiden Forscher zur gleichen Modellauswahl geführt würden, diejenige, die 1000 Regressionen durchführt, jedoch bestraft wird, weil ein Problem mit mehreren Vergleichen erforderlich ist. Ich sehe das überhaupt nicht als Paradox (nicht klar, aber ich denke, das OP hat es getan). Sie haben eine sehr schön geschriebene und korrekte Antwort gegeben, die auch intuitiv erklärt, warum die beiden Fälle unterschiedlich sind. Ich denke, das OP sollte Ihre Antwort überprüfen!
Michael R. Chernick
1
Ich weiß auch, dass dies gängige Praxis ist, aber finden Sie es nicht beunruhigend zu sagen, dass ein Ergebnis "aussagekräftiger" ist als das andere, wenn es sich genau um dasselbe Modell und dieselben Daten aus demselben Datenerzeugungsprozess handelt? Das Einzige, was sich unterscheidet, ist, wie sehr sich ein Dritter die Daten angesehen hat, und dies sollte keinen Bezug zur DGP selbst oder zu Ihren früheren Vorstellungen über das Problem haben. Sollte die Analyse von Forscher 2 zum Beispiel durch die Unwissenheit von Forscher 1 beeinträchtigt werden?
Statslearner
1
@MartijnWeterings warum sollte die Absicht des Forschers für die Interpretation der Daten von Bedeutung sein? Wenn Sie dies als Heuristik verwenden, als Laie, der ein Expertenergebnis interpretiert, ist dies in Ordnung. Aber für einen Wissenschaftler, der die Daten analysiert, sollte die Absicht des Forschers keinen Einfluss auf Ihre Interpretation der Beweise haben.
Statslearner
1
Es scheint also, dass Sie das Verhalten des Forschers als Proxy für Ihren Prior verwenden. Wenn der Forscher 1000 Regressionen ausführte, entspräche dies einem Tief vor dieser spezifischen Hypothese. Wenn er nur 1 lief, würde dies einer hohen Priorität dieser Hypothese entsprechen. Wenn Sie die beiden Fälle hatten, wissen Sie nicht, welche vor der Verwendung.
Statslearner
1

Kurzgeschichte: Wir haben nicht genügend Informationen, um Ihre Frage zu beantworten, da wir nichts über die verwendeten Methoden oder die gesammelten Daten wissen.

Lange Antwort ... Die eigentliche Frage hier ist, ob jeder Forscher tut:

  • strenge Wissenschaft
  • strenge Pseudowissenschaften
  • Erkundung von Daten
  • Datenbaggerung oder P-Hacking

Ihre Methoden bestimmen die Stärke der Interpretation ihrer Ergebnisse. Dies liegt daran, dass einige Methoden weniger gut sind als andere.

In der rigorosen Wissenschaft entwickeln wir eine Hypothese, identifizieren verwirrende Variablen, entwickeln Kontrollen für Variablen außerhalb unserer Hypothese, planen Testmethoden, planen unsere analytische Methodik, führen Tests durch / sammeln Daten und analysieren dann Daten. (Beachten Sie, dass die Analysemethoden vor dem Test geplant sind.) Dies ist das strengste, da wir Daten und Analysen akzeptieren müssen, die nicht mit der Hypothese übereinstimmen. Es ist nicht akzeptabel, Methoden nachträglich zu ändern, um etwas Interessantes zu erhalten. Jede neue Hypothese aus den Ergebnissen muss denselben Prozess erneut durchlaufen.

In der Pseudowissenschaft nehmen wir oft Daten, die bereits gesammelt wurden. Dies ist ethisch schwieriger anzuwenden, da es einfacher ist, Verzerrungen zu den Ergebnissen hinzuzufügen. Es ist jedoch weiterhin möglich, die wissenschaftliche Methode für ethische Analysten zu befolgen. Es kann jedoch schwierig sein, geeignete Kontrollen einzurichten, und dies muss untersucht und notiert werden.

Die Erforschung von Daten basiert nicht auf wissenschaftlichen Erkenntnissen. Es gibt keine spezifische Hypothese. Es gibt keine a priori Bewertung von Störfaktoren. Außerdem ist es schwierig, die Analyse mit denselben Daten erneut durchzuführen, da die Ergebnisse möglicherweise durch Vorwissen oder Modellierung beeinträchtigt werden und keine neuen Daten zur Validierung verfügbar sind. Ein rigoroses wissenschaftliches Experiment wird empfohlen, um mögliche Zusammenhänge zu klären, die sich aus einer explorativen Analyse ergeben.

Beim Datenbaggern oder P-Hacking führt ein „Analyst“ mehrere Tests durch, in der Hoffnung, dass eine unerwartete oder unbekannte Antwort vorliegt, oder manipuliert die Daten, um ein Ergebnis zu erzielen. Die Ergebnisse können ein einfacher Zufall sein, können das Ergebnis einer Verwechslung von Variablen sein oder haben möglicherweise keine bedeutsame Effektgröße oder -stärke.

Für jedes Problem gibt es einige Abhilfemaßnahmen, die jedoch sorgfältig abgewogen werden müssen.

Adam Sampson
quelle
1
Ich glaube, Sie fügen der Frage unnötigen Lärm hinzu. Angenommen, sie haben die besten verfügbaren Methoden angewendet. Die Daten wurden nicht von ihnen, sondern von einem statistischen Amt erhoben, so dass sie keine Kontrolle über die Datenerhebung hatten. Der einzige Unterschied besteht darin, wie sehr jeder Forscher die Daten untersucht hat. Einer von ihnen hat viel erforscht, der andere nur einmal. Beide erhalten dasselbe endgültige Modell mit denselben Daten. Sollten sie unterschiedliche Schlussfolgerungen ziehen? Und wie sollte sich das auf Ihre Schlussfolgerung auswirken ?
Statslearner
Dies ist kein zusätzlicher Lärm. Mathe ist Mathe. Wenn die Modelle identisch sind, sind sie identisch. Wie Sie die Modelle interpretieren, hängt von allen anderen Variablen ab, die nicht in Ihrem Problem enthalten sind. Wenn Sie den gesamten anderen Kontext und das Design oder die Experimente ignorieren, ist die Antwort einfach. Beide Modelle sind mathematisch gleich leistungsfähig und wissenschaftlich schwach.
Adam Sampson