Simpsons Paradoxon ist ein klassisches Rätsel, das in einführenden Statistikkursen weltweit behandelt wird. In meinem Kurs ging es jedoch nur darum, festzustellen, dass ein Problem bestand und keine Lösung lieferte. Ich würde gerne wissen, wie man das Paradoxon löst. Das heißt, wenn man mit einem Simpson-Paradoxon konfrontiert wird, bei dem zwei verschiedene Auswahlmöglichkeiten um die beste Auswahl zu konkurrieren scheinen, abhängig davon, wie die Daten partitioniert sind. Welche Auswahl sollte man treffen?
Betrachten wir zur Konkretisierung des Problems das erste Beispiel aus dem entsprechenden Wikipedia-Artikel . Es basiert auf einer echten Studie über eine Behandlung von Nierensteinen.
Angenommen, ich bin Arzt und ein Test zeigt, dass ein Patient Nierensteine hat. Anhand der in der Tabelle angegebenen Informationen möchte ich bestimmen, ob ich Behandlung A oder Behandlung B anwenden soll. Wenn ich die Größe des Steins kenne, sollten wir Behandlung A bevorzugen. Wenn nicht, dann wir sollten Behandlung B bevorzugen
Betrachten Sie jedoch einen anderen plausiblen Weg, um zu einer Antwort zu gelangen. Wenn der Stein groß ist, sollten wir A wählen, und wenn er klein ist, sollten wir wieder A wählen. Selbst wenn wir die Größe des Steins nach der Methode der Fälle nicht kennen, sehen wir, dass wir A bevorzugen sollten. Dies widerspricht unserer früheren Argumentation.
Also: Ein Patient kommt in mein Büro. Ein Test zeigt, dass sie Nierensteine haben, gibt mir aber keine Informationen über ihre Größe. Welche Behandlung empfehle ich? Gibt es eine akzeptierte Lösung für dieses Problem?
Wikipedia deutet auf eine Lösung mit "kausalen Bayes'schen Netzwerken" und einem "Hintertür" -Test hin, aber ich habe keine Ahnung, was das sind.
quelle
Antworten:
In Ihrer Frage geben Sie an, dass Sie nicht wissen, was "kausale Bayes'sche Netzwerke" und "Hintertür-Tests" sind.
Angenommen, Sie haben ein kausales Bayes'sches Netzwerk. Das heißt, ein gerichteter azyklischer Graph, dessen Knoten Sätze darstellen und dessen gerichtete Kanten potenzielle kausale Beziehungen darstellen. Sie können viele solcher Netzwerke für jede Ihrer Hypothesen haben. Es gibt drei Möglichkeiten, um ein überzeugendes Argument für die Stärke oder das Vorhandensein einer Kante zu liefern: .A→?B
Der einfachste Weg ist eine Intervention. Dies ist, was die anderen Antworten vorschlagen, wenn sie sagen, dass "richtige Randomisierung" das Problem beheben wird. Sie erzwingen zufällig, dass andere Werte hat, und Sie messen BA B . Wenn Sie das können, sind Sie fertig, aber das können Sie nicht immer. In Ihrem Beispiel kann es unethisch sein, Menschen ineffektive Behandlungen für tödliche Krankheiten zu geben, oder sie können ein Mitspracherecht bei ihrer Behandlung haben, z. B. wählen sie die weniger harte (Behandlung B), wenn ihre Nierensteine klein und weniger schmerzhaft sind.
Der zweite Weg ist die Haustürmethode. Sie wollen zeigen , dass wirkt auf B über C , dh A → C → B . Wenn Sie annehmen, dass C möglicherweise von A verursacht wird, aber keine anderen Ursachen hat, können Sie messen, dass C mit A und B mit korreliert istA B C A→C→B C A C A B , können Sie daraus schließen, dass Beweise über C fließen müssen. Das ursprüngliche Beispiel: A raucht, B ist Krebs, CC C A B C ist Teeransammlung. Teer kann nur durch Rauchen entstehen und ist sowohl mit Rauchen als auch mit Krebs verbunden. Daher verursacht Rauchen über Teer Krebs (obwohl es andere kausale Pfade geben könnte, die diesen Effekt abschwächen).
Der dritte Weg ist die Hintertürmethode. Sie möchten zeigen, dass und B aufgrund einer "Hintertür" nicht korreliert sind, z.A B . Da Sie ein Kausalmodell angenommen haben, müssen Sie lediglich alle Pfade blockieren (indem Sie Variablen beobachten und sie konditionieren), damit Beweise von A nach unten und von B nach oben fließen können. Es ist etwas schwierig, diese Pfade zu blockieren, aber Pearl bietet einen klaren Algorithmus, mit dem Sie wissen, welche Variablen Sie zum Blockieren dieser Pfade beachten müssen.A←D→B A B
gung hat recht, dass bei einer guten randomisierung die confounder keine rolle spielen. Da wir davon ausgehen, dass ein Eingreifen in die hypothetische Ursache (Behandlung) nicht zulässig ist, ist eine gemeinsame Ursache zwischen hypothetischer Ursache (Behandlung) und Wirkung (Überleben) wie Alter oder Nierensteingröße ein Störfaktor. Die Lösung besteht darin, die richtigen Messungen vorzunehmen, um alle Hintertüren zu blockieren. Weitere Informationen finden Sie unter:
Perle, Judäa. "Kausaldiagramme für empirische Forschung." Biometrika 82.4 (1995): 669 & ndash; 688.
quelle
Ich habe eine vorherige Antwort, die das Simpson-Paradoxon hier behandelt: Grundlegendes Simpson-Paradoxon . Es kann Ihnen helfen, dies zu lesen, um das Phänomen besser zu verstehen.
Kurz gesagt, Simpsons Paradox tritt aufgrund von Verwirrung auf. In Ihrem Beispiel ist die Behandlung verwechselt* mit der Art der Nierensteine, die jeder Patient hatte. Aus der vollständigen Tabelle der vorgelegten Ergebnisse wissen wir, dass die Behandlung A immer besser ist. Daher sollte ein Arzt die Behandlung A wählen. Der einzige Grund, warum die Behandlung B insgesamt besser aussieht, ist, dass sie häufiger bei Patienten mit weniger schwerer Erkrankung angewendet wurde, wohingegen die Behandlung A bei Patienten mit schwererer Erkrankung angewendet wurde. Trotzdem schnitt die Behandlung A unter beiden Bedingungen besser ab. Als Arzt kümmert es Sie nicht, dass in der Vergangenheit die schlechtere Behandlung für Patienten mit geringerer Erkrankung durchgeführt wurde. Sie kümmern sich nur um den Patienten vor Ihnen, und wenn Sie möchten, dass sich dieser Patient bessert, werden Sie dafür sorgen sie mit der besten verfügbaren Behandlung.
* Beachten Sie, dass der Sinn der Durchführung von Experimenten und der Randomisierung von Behandlungen darin besteht, eine Situation zu schaffen, in der die Behandlungen nicht verwechselt werden. Wenn die fragliche Studie ein Experiment wäre, würde ich sagen, dass der Randomisierungsprozess keine gerechten Gruppen hervorgebracht hat, obwohl es sich möglicherweise um eine Beobachtungsstudie handelte - ich weiß nicht.
quelle
Dieser schöne Artikel von Judea Pearl aus dem Jahr 2013 befasst sich genau mit dem Problem, welche Option Sie wählen sollten, wenn Sie mit Simpsons Paradoxon konfrontiert werden:
Das Simpson-Paradoxon verstehen (PDF)
quelle
Möchten Sie die Lösung für das eine Beispiel oder das Paradox im Allgemeinen? Für letztere gibt es keine, da das Paradoxon aus mehreren Gründen auftreten kann und von Fall zu Fall beurteilt werden muss.
Das Paradoxon ist in erster Linie problematisch, wenn Zusammenfassungsdaten gemeldet werden, und ist von entscheidender Bedeutung für die Schulung von Personen zum Analysieren und Melden von Daten. Wir möchten nicht, dass Forscher zusammenfassende Statistiken melden, die Muster in den Daten verbergen oder verschleiern, oder dass Datenanalysten nicht erkennen, was das wahre Muster in den Daten ist. Es wurde keine Lösung angegeben, da es keine einzige Lösung gibt.
In diesem speziellen Fall würde der Arzt mit der Tabelle eindeutig immer A auswählen und die Zusammenfassung ignorieren. Es macht keinen Unterschied, ob sie die Größe des Steins kennen oder nicht. Wenn jemand, der die Daten analysiert, nur die Zusammenfassungszeilen für A und B gemeldet hätte, wäre dies problematisch, da die Daten, die der Arzt erhalten hat, nicht der Realität entsprechen. In diesem Fall hätten sie wahrscheinlich auch die letzte Zeile der Tabelle weglassen müssen, da dies nur unter einer Interpretation der Zusammenfassungsstatistik korrekt ist (es sind zwei möglich). Dem Leser die Interpretation der einzelnen Zellen zu überlassen, hätte im Allgemeinen das richtige Ergebnis gebracht.
(Ihre zahlreichen Kommentare scheinen darauf hinzudeuten, dass Sie am meisten über ungleiche N-Probleme besorgt sind, und Simpson ist umfassender, sodass ich mich nicht weiter mit dem ungleichen N-Problem befasse. Stellen Sie vielleicht eine gezieltere Frage. Darüber hinaus scheinen Sie mir zu denken, dass ich Ich befürworte eine Schlußfolgerung zur Normalisierung. Ich nicht. Ich behaupte, Sie müssen in Betracht ziehen, daß die zusammenfassende Statistik relativ willkürlich ausgewählt wurde und daß die Auswahl durch einen Analytiker zu dem Paradoxon geführt hat haben.)
quelle
Ein wichtiges "Mitnehmen" ist, dass, wenn die Behandlungszuordnungen zwischen den Untergruppen unverhältnismäßig sind, Untergruppen bei der Analyse der Daten berücksichtigt werden müssen.
Ein zweites wichtiges "take away" ist, dass Beobachtungsstudien aufgrund des unbekannten Vorhandenseins von Simpsons Paradoxon besonders dazu neigen, falsche Antworten zu liefern. Das liegt daran, dass wir die Tatsache nicht korrigieren können, dass Behandlung A in der Regel für die schwierigeren Fälle angewendet wird, wenn wir nicht wissen, dass dies der Fall ist.
In a properly randomized study we can either (1) allocate treatment randomly so that giving an "unfair advantage" to one treatment is highly unlikely and will automatically get taken care of in the data analysis or, (2) if there is an important reason to do so, allocate the treatments randomly but disproportionately based on some known issue and then take that issue into account during the analysis.
quelle