Wie können Sie feststellen, welche Studie die bessere ist, wenn Sie widersprüchliche Ergebnisse erhalten?

11

In der Presse stößt man so oft auf verschiedene Studien, die zu direkt entgegengesetzten Ergebnissen führen. Diese können mit dem Testen eines neuen verschreibungspflichtigen Arzneimittels oder dem Verdienst eines bestimmten Nährstoffs oder irgendetwas anderem in dieser Angelegenheit zusammenhängen.

Wenn zwei solcher Studien zu widersprüchlichen Ergebnissen führen, wie können Sie dann feststellen, welche der beiden der Wahrheit am nächsten kommt?

Sympa
quelle
Vielleicht sollte das CW sein? Es wird keine eindeutige Antwort auf diese Frage geben, und es können sich mehrere Perspektiven und Ansätze ergeben.
whuber
2
@whuber Ich würde gegen CW stimmen, denn selbst wenn es unterschiedliche Perspektiven gibt, gibt es wahrscheinlich einen besten Ansatz. Dies ähnelt dem Testen derselben Hypothese unter Verwendung verschiedener Frameworks / Modelle, es gibt jedoch wahrscheinlich einen besten Ansatz.
@Srikant: In jedem speziellen Fall kann ich mir vorstellen, dass Sie eine starke Verteidigung aufbauen könnten, um Ihre Behauptung zu unterstützen. Im Allgemeinen hängt die beste Antwort jedoch - was die gegenwärtige Situation ist - vom Kontext ab. Betrachten Sie als einfaches (und unvollständiges) Beispiel die Unterschiede zwischen der Bewertung eines Paares entworfener physikalischer Experimente (z. B. Messung der Lichtgeschwindigkeit, bei denen historisch gesehen die meisten Konfidenzintervalle die Wahrheit verfehlt haben!) Und einer Beobachtungsstudie in den Sozialwissenschaften .
whuber
@whuber Vielleicht sollten wir dieses Gespräch auf Meta fortsetzen. Ich gebe zu, dass ich immer noch unklar bin, wann ich CW verwenden soll und wann ich es nicht tun soll, aber um Ihren Standpunkt aufzugreifen: Die beste Antwort auf diese Frage wäre dann, dass die Antwort kontextabhängig ist und anhand einiger Beispiele erklärt, warum. Auf jeden Fall habe ich das Gefühl, dass diese Frage nicht CW sein sollte, aber ich kann keine weiteren Gründe als die oben beschriebenen ausdrücken.

Antworten:

3

Ich denke, Jeromys Antwort ist ausreichend, wenn Sie zwei experimentelle Studien oder eine tatsächliche Metaanalyse untersuchen. Oft stehen wir jedoch vor der Prüfung zweier nicht experimenteller Studien und haben die Aufgabe, die Gültigkeit dieser beiden unterschiedlichen Ergebnisse zu bewerten.

Wie Cyrus 'Einkaufsliste mit Fragen nahe legt, kann das Thema selbst nicht kurz beantwortet werden , und ganze Bücher zielen im Wesentlichen darauf ab, eine solche Frage zu beantworten. Für alle, die an der Erforschung nicht experimenteller Daten interessiert sind, würde ich Ihnen dringend empfehlen, diese zu lesen

Experimentelle und quasi-experimentelle Entwürfe für verallgemeinerte kausale Folgerungen von William R. Shadish, Thomas D. Cook und Donald Thomas Campbell (auch ich habe gehört, dass die älteren Versionen dieses Textes genauso gut sind).

Mehrere Punkte, auf die sich Jeromy bezog (größere Stichproben und größere methodische Genauigkeit), und alles, was Cyrus erwähnt, würde als das angesehen, was Campbell und Cook als "interne Gültigkeit" bezeichnen. Dazu gehören Aspekte des Forschungsdesigns und der statistischen Methoden zur Bewertung der Beziehung zwischen X und Y. Insbesondere als Kritiker sind wir besorgt über Aspekte, die die Ergebnisse verzerren und die Zuverlässigkeit der Ergebnisse beeinträchtigen könnten. Da dies ein Forum ist, das sich der statistischen Analyse widmet, konzentrieren sich viele der Antworten auf statistische Methoden, um unvoreingenommene Schätzungen der von Ihnen bewerteten Beziehung sicherzustellen. Es gibt jedoch auch andere Aspekte des Forschungsdesigns, die nichts mit der statistischen Analyse zu tun haben und die die Gültigkeit der Ergebnisse beeinträchtigen, unabhängig davon, wie streng die statistische Analyse ist (wie Cyrus 'Erwähnung mehrerer Aspekte der Versuchstreue angesprochen, aber nicht gelöst werden kann) statistische Methoden und deren Auftreten beeinträchtigen immer die Gültigkeit der Studienergebnisse. Es gibt viele andere Aspekte der internen Validität, die für den Vergleich der Ergebnisse nicht experimenteller Studien, die hier nicht erwähnt werden, von entscheidender Bedeutung sind, sowie Aspekte von Forschungsdesigns, die die Zuverlässigkeit der Ergebnisse unterscheiden können. Ich halte es nicht für angebracht, hier zu sehr ins Detail zu gehen.

Campbell und Cook verweisen auch auf die "externe Validität" von Studien. Dieser Aspekt des Forschungsdesigns ist oft viel kleiner und verdient nicht so viel Aufmerksamkeit wie die interne Validität. Die externe Validität befasst sich im Wesentlichen mit der Generalisierbarkeit der Ergebnisse, und ich würde sagen, dass Laien die externe Validität oft angemessen beurteilen können, solange sie mit dem Thema vertraut sind. Lange Rede, kurzer Sinn, lesen Sie das Buch von Shadish, Cook und Campbell.

Andy W.
quelle
8

Die Metaanalyse- Literatur ist für Ihre Frage relevant. Mithilfe von Metaanalysetechniken können Sie eine Schätzung der Wirkung von Interesse erstellen, die über Studien hinweg zusammengefasst ist. Solche Techniken gewichten häufig Studien hinsichtlich ihrer Stichprobengröße.

Im Kontext der Metaanalyse sprechen die Forscher über Modelle mit festen und zufälligen Effekten (siehe Hunter und Schmidt, 2002 ). Ein Modell mit festem Effekt geht davon aus, dass alle Studien den gleichen Populationseffekt schätzen. Ein Zufallseffektmodell geht davon aus, dass sich Studien in dem geschätzten Bevölkerungseffekt unterscheiden. Ein Zufallseffektmodell ist normalerweise besser geeignet.

Je mehr Studien sich mit einer bestimmten Beziehung befassen, desto ausgefeilter werden Ansätze. Beispielsweise können Sie Studien anhand verschiedener Eigenschaften wie der wahrgenommenen Qualität codieren und dann empirisch untersuchen, ob die Effektgröße mit diesen Studienmerkmalen variiert. Über die Qualität hinaus kann es einige theoretisch relevante Unterschiede zwischen den Studien geben, die die Beziehung abschwächen würden (z. B. Charakteristik der Probe, Dosierungsniveaus usw.).

Im Allgemeinen vertraue ich Studien eher mit:

  • größere Stichproben
  • größere methodische Genauigkeit
  • eine bestätigende Orientierung (z. B. keine Studie, in der Korrelationen zwischen 100 verschiedenen Nährstoffen und 50 Gesundheitsergebnissen getestet wurden)
  • Fehlen eines Interessenkonflikts (z. B. nicht von einem Unternehmen mit kommerziellem Interesse an der Darstellung einer Beziehung; nicht von einem Forscher, der einen Anreiz hat, ein signifikantes Ergebnis zu erzielen)

Das heißt, Sie müssen zufällige Stichproben und theoretisch bedeutsame Unterschiede zwischen den Studien als plausible Erklärung für widersprüchliche Studienergebnisse aufbewahren.

Jeromy Anglim
quelle
Ich mag besonders die Wahrscheinlichkeitsquote als Mittel zur Aggregation von Beweisen in der Metaanalyse; Wenn Sie über ausreichende Daten verfügen, um diese für jede Studie zu berechnen, berechnen Sie das Produkt einfach studienübergreifend, um die aggregierten Beweise für / gegen eine Hypothese darzustellen.
Mike Lawrence
Ich habe die (ir) Relevanz der Metaanalyse nach Cyrus 'Antwort kommentiert, diese Antwort jedoch für alles andere, insbesondere für die Aufzählungspunkte, positiv bewertet.
whuber
@whuber @ Gaetans Frage geht davon aus, dass eine Studie der Wahrheit näher kommt. Ich versuche, einen Schritt zurückzutreten und Unterschiede in den Ergebnissen zwischen Studien innerhalb eines metaanalytischen Rahmens zu lokalisieren, wobei ich die Möglichkeit anerkenne, dass die Studien von gleicher Qualität sein können, aber dass zufällige Stichproben oder wesentliche Unterschiede die Erklärung sein können.
Jeromy Anglim
@whuber Selbst mit zwei Studien wäre es möglich, eine metaanalytische Schätzung des interessierenden Effekts zu erstellen. Natürlich kann das Konfidenzintervall der Effektschätzung groß sein. Ein hohes Maß an Unsicherheit ist jedoch zu erwarten, wenn nur zwei Studien durchgeführt wurden und widersprüchliche Ergebnisse liefern.
Jeromy Anglim
5

Ich würde mich mit der Prüfung der Metaanalyse zurückhalten, bis Sie die Quellen auf mögliche Verzerrungen oder Variationen in den Zielpopulationen untersucht haben. Wenn es sich um Studien zu Behandlungseffekten handelt, wurde die Behandlung zufällig vergeben? Gab es Abweichungen vom Protokoll? Gab es eine Nichteinhaltung? Fehlen Ergebnisdaten? Wurden die Proben aus demselben Rahmen gezogen? Gab es eine Verweigerung der Teilnahme? Implementierungsfehler? Wurden Standardfehler korrekt berechnet, unter Berücksichtigung von Clustering und robust gegenüber verschiedenen parametrischen Annahmen? Erst nachdem Sie diese Fragen beantwortet haben, tauchen meiner Meinung nach Probleme mit der Metaanalyse auf. Es muss selten vorkommen, dass für zwei Studien eine Metaanalyse angemessen ist, es sei denn, Sie sind bereit, einzelne heroische Annahmen zu treffen.

Cyrus
quelle
Aber sind diese Schritte nicht bereits Teil der Metaanalyse?
Chl
3
@chl: Stimmt, aber der Punkt ist, dass diese Schritte zum Kern der Frage gelangen. Eine Metaanalyse wäre nur dann hilfreich, wenn es viele Studien gibt (nicht nur zwei) und ihre Vorzüge bereits sorgfältig bewertet wurden. Die Frage vor uns ist wirklich, wie man überhaupt die Qualität einer Studie oder eines Paares widersprüchlicher Studien bewertet. Cyrus hat auf einige der vielen Aspekte hingewiesen; Eine angemessene Behandlung erfordert in der Regel ein oder zwei Semester Studium auf Universitätsniveau. In diesem Licht denke ich, dass seine Verwendung des Begriffs "heroisch" etwas untertrieben ist!
whuber
1
@whuber Ja, ich stimme dir und @Cyrus zu. Natürlich ist die Bewertung der Qualität und Vertrauenswürdigkeit früherer Studien ein obligatorischer Schritt (und es braucht Zeit, um alle Studien zu überprüfen, insbesondere wenn wir die Autoren kontaktieren müssen, da in den MS Informationen fehlen). Ich dachte nur, dies sei Teil der Metaanalyse, und der "statistische Teil" reduziert sich auf eine quantitative Zusammenfassung vertrauenswürdiger Ergebnisse.
Chl