Wie löst man Simpsons Paradoxon?

35

Simpsons Paradoxon ist ein klassisches Rätsel, das in einführenden Statistikkursen weltweit behandelt wird. In meinem Kurs ging es jedoch nur darum, festzustellen, dass ein Problem bestand und keine Lösung lieferte. Ich würde gerne wissen, wie man das Paradoxon löst. Das heißt, wenn man mit einem Simpson-Paradoxon konfrontiert wird, bei dem zwei verschiedene Auswahlmöglichkeiten um die beste Auswahl zu konkurrieren scheinen, abhängig davon, wie die Daten partitioniert sind. Welche Auswahl sollte man treffen?

Betrachten wir zur Konkretisierung des Problems das erste Beispiel aus dem entsprechenden Wikipedia-Artikel . Es basiert auf einer echten Studie über eine Behandlung von Nierensteinen.

Bildbeschreibung hier eingeben

Angenommen, ich bin Arzt und ein Test zeigt, dass ein Patient Nierensteine ​​hat. Anhand der in der Tabelle angegebenen Informationen möchte ich bestimmen, ob ich Behandlung A oder Behandlung B anwenden soll. Wenn ich die Größe des Steins kenne, sollten wir Behandlung A bevorzugen. Wenn nicht, dann wir sollten Behandlung B bevorzugen

Betrachten Sie jedoch einen anderen plausiblen Weg, um zu einer Antwort zu gelangen. Wenn der Stein groß ist, sollten wir A wählen, und wenn er klein ist, sollten wir wieder A wählen. Selbst wenn wir die Größe des Steins nach der Methode der Fälle nicht kennen, sehen wir, dass wir A bevorzugen sollten. Dies widerspricht unserer früheren Argumentation.

Also: Ein Patient kommt in mein Büro. Ein Test zeigt, dass sie Nierensteine ​​haben, gibt mir aber keine Informationen über ihre Größe. Welche Behandlung empfehle ich? Gibt es eine akzeptierte Lösung für dieses Problem?

Wikipedia deutet auf eine Lösung mit "kausalen Bayes'schen Netzwerken" und einem "Hintertür" -Test hin, aber ich habe keine Ahnung, was das sind.

Kartoffel
quelle
2
Die oben erwähnte Paradox- Verknüpfung von Basic Simpson ist ein Beispiel für Beobachtungsdaten. Wir können uns nicht eindeutig zwischen den Krankenhäusern entscheiden, da die Patienten wahrscheinlich nicht zufällig in die Krankenhäuser eingeteilt wurden und die gestellte Frage uns keine Möglichkeit gibt, festzustellen, ob beispielsweise ein Krankenhaus tendenziell Patienten mit höherem Risiko hat. Aufschlüsselung der Ergebnisse in Vorgänge AE geht dieses Problem nicht an.
Emil Friedman
@EmilFriedman Ich stimme zu, es ist wahr, dass wir uns eindeutig zwischen Krankenhäusern entscheiden können. Aber die Daten stützen sich sicherlich übereinander. (Es ist nicht wahr, dass die Daten uns nichts über die Qualität der Krankenhäuser gelehrt haben.)
Kartoffel

Antworten:

14

In Ihrer Frage geben Sie an, dass Sie nicht wissen, was "kausale Bayes'sche Netzwerke" und "Hintertür-Tests" sind.

Angenommen, Sie haben ein kausales Bayes'sches Netzwerk. Das heißt, ein gerichteter azyklischer Graph, dessen Knoten Sätze darstellen und dessen gerichtete Kanten potenzielle kausale Beziehungen darstellen. Sie können viele solcher Netzwerke für jede Ihrer Hypothesen haben. Es gibt drei Möglichkeiten, um ein überzeugendes Argument für die Stärke oder das Vorhandensein einer Kante zu liefern: .A?B

Der einfachste Weg ist eine Intervention. Dies ist, was die anderen Antworten vorschlagen, wenn sie sagen, dass "richtige Randomisierung" das Problem beheben wird. Sie erzwingen zufällig, dass andere Werte hat, und Sie messen BAB . Wenn Sie das können, sind Sie fertig, aber das können Sie nicht immer. In Ihrem Beispiel kann es unethisch sein, Menschen ineffektive Behandlungen für tödliche Krankheiten zu geben, oder sie können ein Mitspracherecht bei ihrer Behandlung haben, z. B. wählen sie die weniger harte (Behandlung B), wenn ihre Nierensteine ​​klein und weniger schmerzhaft sind.

Der zweite Weg ist die Haustürmethode. Sie wollen zeigen , dass wirkt auf B über C , dh A C B . Wenn Sie annehmen, dass C möglicherweise von A verursacht wird, aber keine anderen Ursachen hat, können Sie messen, dass C mit A und B mit korreliert istABCACBCACAB, können Sie daraus schließen, dass Beweise über C fließen müssen. Das ursprüngliche Beispiel: A raucht, B ist Krebs, CCCABCist Teeransammlung. Teer kann nur durch Rauchen entstehen und ist sowohl mit Rauchen als auch mit Krebs verbunden. Daher verursacht Rauchen über Teer Krebs (obwohl es andere kausale Pfade geben könnte, die diesen Effekt abschwächen).

Der dritte Weg ist die Hintertürmethode. Sie möchten zeigen, dass und B aufgrund einer "Hintertür" nicht korreliert sind, z.AB . Da Sie ein Kausalmodell angenommen haben, müssen Sie lediglich alle Pfade blockieren (indem Sie Variablen beobachten und sie konditionieren), damit Beweise von A nach unten und von B nach oben fließen können. Es ist etwas schwierig, diese Pfade zu blockieren, aber Pearl bietet einen klaren Algorithmus, mit dem Sie wissen, welche Variablen Sie zum Blockieren dieser Pfade beachten müssen.ADBAB

gung hat recht, dass bei einer guten randomisierung die confounder keine rolle spielen. Da wir davon ausgehen, dass ein Eingreifen in die hypothetische Ursache (Behandlung) nicht zulässig ist, ist eine gemeinsame Ursache zwischen hypothetischer Ursache (Behandlung) und Wirkung (Überleben) wie Alter oder Nierensteingröße ein Störfaktor. Die Lösung besteht darin, die richtigen Messungen vorzunehmen, um alle Hintertüren zu blockieren. Weitere Informationen finden Sie unter:

Perle, Judäa. "Kausaldiagramme für empirische Forschung." Biometrika 82.4 (1995): 669 & ndash; 688.


XYZXYXYZYXZXY

X

Neil G
quelle
2
Sehr nette Antwort. Könnten Sie kurz sagen, wie Sie diesen Rahmen auf das Beispiel anwenden, das ich in der Frage gebe? Gibt es die erwartete Antwort (A)?
Kartoffel
Vielen Dank! Kennen Sie eine gute, kurze Einführung in die "Glaubensvermittlung"? Ich bin daran interessiert, mehr zu lernen.
Kartoffel
@Potato: Ich habe es aus seinem Buch "Probabilistic Reasoning in Intelligent Systems" gelernt. Es gibt viele Online-Tutorials, aber es ist schwierig, eines zu finden, das die Intuition fördert, anstatt nur den Algorithmus zu präsentieren.
Neil G
22

Ich habe eine vorherige Antwort, die das Simpson-Paradoxon hier behandelt: Grundlegendes Simpson-Paradoxon . Es kann Ihnen helfen, dies zu lesen, um das Phänomen besser zu verstehen.

Kurz gesagt, Simpsons Paradox tritt aufgrund von Verwirrung auf. In Ihrem Beispiel ist die Behandlung verwechselt* mit der Art der Nierensteine, die jeder Patient hatte. Aus der vollständigen Tabelle der vorgelegten Ergebnisse wissen wir, dass die Behandlung A immer besser ist. Daher sollte ein Arzt die Behandlung A wählen. Der einzige Grund, warum die Behandlung B insgesamt besser aussieht, ist, dass sie häufiger bei Patienten mit weniger schwerer Erkrankung angewendet wurde, wohingegen die Behandlung A bei Patienten mit schwererer Erkrankung angewendet wurde. Trotzdem schnitt die Behandlung A unter beiden Bedingungen besser ab. Als Arzt kümmert es Sie nicht, dass in der Vergangenheit die schlechtere Behandlung für Patienten mit geringerer Erkrankung durchgeführt wurde. Sie kümmern sich nur um den Patienten vor Ihnen, und wenn Sie möchten, dass sich dieser Patient bessert, werden Sie dafür sorgen sie mit der besten verfügbaren Behandlung.

* Beachten Sie, dass der Sinn der Durchführung von Experimenten und der Randomisierung von Behandlungen darin besteht, eine Situation zu schaffen, in der die Behandlungen nicht verwechselt werden. Wenn die fragliche Studie ein Experiment wäre, würde ich sagen, dass der Randomisierungsprozess keine gerechten Gruppen hervorgebracht hat, obwohl es sich möglicherweise um eine Beobachtungsstudie handelte - ich weiß nicht.

gung - Wiedereinsetzung von Monica
quelle
Sie entscheiden sich für den Normalisierungsansatz, der auch in der anderen Antwort vorgeschlagen wird. Ich finde das problematisch. Es ist möglich, zwei Partitionen desselben Datensatzes darzustellen, die bei Normalisierung unterschiedliche Schlussfolgerungen ziehen. Siehe mein Link und Zitat als Antwort auf die andere Antwort.
Kartoffel
2
Ich habe den Stanford-Artikel nicht gelesen. Die Begründung im Zitat finde ich jedoch nicht überzeugend. Es kann durchaus sein, dass in einigen Populationen die Behandlung B besser ist als die Behandlung A. Dies spielt keine Rolle. Wenn dies für einige Bevölkerungsgruppen zutrifft, liegt dies nur daran, dass die Merkmale der Bevölkerung verwechselt werden. Sie haben es mit einem Patienten zu tun (nicht mit einer Population), und dieser Patient wird sich mit größerer Wahrscheinlichkeit unter der Behandlung bessern. Dabei spielt es keine Rolle, ob dieser Patient große oder kleine Nierensteine ​​hat. Sie sollten die Behandlung A wählen.
gung - Monica wieder einsetzen
2
Ist die junge / alte Partition durcheinander? Wenn nicht, ist dies kein Problem. In diesem Fall würden wir die vollständigen Informationen verwenden, um die beste Entscheidung zu treffen. Nach dem, was wir derzeit wissen, handelt es sich bei der „Behandlung B insgesamt am besten“ um einen roten Hering. Es scheint nur wegen der Verwirrung der Fall zu sein, aber es ist eine (statistische) Illusion.
gung - Wiedereinsetzung von Monica
2
Sie hätten eine kompliziertere Tabelle, die sowohl die Größe als auch das Alter der Nierensteine ​​berücksichtigt. Sie können sich das Beispiel für einen Berkeley Gender Bias auf der Wikipedia-Seite ansehen .
gung - Wiedereinsetzung von Monica
1
Ich hasse es, Kommentare so lange zu erweitern, aber ... ich würde nicht sagen, dass das Paradox immer auf Verwirrung zurückzuführen ist. Es liegt an einer Beziehung zwischen Variablen, die eine verwirrende Variable haben wird, aber ich würde nicht alle Variablen als verwirrend bezeichnen, die zu einem Simpson-Paradox führen (z. B. Gewicht von 30-Jährigen und 90-Jährigen x Menge der pro Jahr konsumierten Kartoffelchips - Da 90-Jährige viel leichter sind, kann der Haupteffekt von Chips ohne die Interaktion negativ sein. Ich würde das Alter jedoch nicht als verwirrend bezeichnen (siehe erste Abbildung auf der Wikipedia-Seite.)
John
4

Möchten Sie die Lösung für das eine Beispiel oder das Paradox im Allgemeinen? Für letztere gibt es keine, da das Paradoxon aus mehreren Gründen auftreten kann und von Fall zu Fall beurteilt werden muss.

Das Paradoxon ist in erster Linie problematisch, wenn Zusammenfassungsdaten gemeldet werden, und ist von entscheidender Bedeutung für die Schulung von Personen zum Analysieren und Melden von Daten. Wir möchten nicht, dass Forscher zusammenfassende Statistiken melden, die Muster in den Daten verbergen oder verschleiern, oder dass Datenanalysten nicht erkennen, was das wahre Muster in den Daten ist. Es wurde keine Lösung angegeben, da es keine einzige Lösung gibt.

In diesem speziellen Fall würde der Arzt mit der Tabelle eindeutig immer A auswählen und die Zusammenfassung ignorieren. Es macht keinen Unterschied, ob sie die Größe des Steins kennen oder nicht. Wenn jemand, der die Daten analysiert, nur die Zusammenfassungszeilen für A und B gemeldet hätte, wäre dies problematisch, da die Daten, die der Arzt erhalten hat, nicht der Realität entsprechen. In diesem Fall hätten sie wahrscheinlich auch die letzte Zeile der Tabelle weglassen müssen, da dies nur unter einer Interpretation der Zusammenfassungsstatistik korrekt ist (es sind zwei möglich). Dem Leser die Interpretation der einzelnen Zellen zu überlassen, hätte im Allgemeinen das richtige Ergebnis gebracht.

(Ihre zahlreichen Kommentare scheinen darauf hinzudeuten, dass Sie am meisten über ungleiche N-Probleme besorgt sind, und Simpson ist umfassender, sodass ich mich nicht weiter mit dem ungleichen N-Problem befasse. Stellen Sie vielleicht eine gezieltere Frage. Darüber hinaus scheinen Sie mir zu denken, dass ich Ich befürworte eine Schlußfolgerung zur Normalisierung. Ich nicht. Ich behaupte, Sie müssen in Betracht ziehen, daß die zusammenfassende Statistik relativ willkürlich ausgewählt wurde und daß die Auswahl durch einen Analytiker zu dem Paradoxon geführt hat haben.)

John
quelle
Sie behaupten, wir sollten die Zusammenfassung ignorieren. Warum ist das "klar"?
Kartoffel
Es ist klar, weil die Behandlung A mit großen oder kleinen Steinen besser ist und B nur aufgrund ungleicher N herauskommt. Darüber hinaus ist die letzte Zeile eine Interpretation, die kein Evangelium ist. Es gibt mindestens zwei Möglichkeiten, diese Linie zu berechnen. Sie würden es nur so berechnen, wenn Sie etwas über die jeweilige Stichprobe sagen möchten.
John
Es tut mir leid, ich verstehe nicht, warum die Zusammenfassung ein falscher Bericht ist. Ich glaube, ich vermisse deinen zentralen Punkt. Könntest du bitte erklären?
Kartoffel
1
You could normalize and then average, which gives the "correct" result (A). But this illicit. The following quote is from the relevant article in the Stanford Encyclopedia of Philosophy, available here: plato.stanford.edu/entries/paradox-simpson
Potato
2
"Simpsons Umkehrungen zeigen, dass es zahlreiche Möglichkeiten gibt, eine Population zu unterteilen, die mit den Assoziationen in der Gesamtbevölkerung übereinstimmen. Eine Unterteilung nach Geschlecht könnte darauf hinweisen, dass sowohl Männer als auch Frauen schlechter dastehen, wenn sie eine neue Behandlung erhalten, während eine Unterteilung derselben Population nach Alter gaben an, dass Patienten unter fünfzig Jahren und Patienten über fünfzig Jahren mit der neuen Behandlung besser abschnitten. Die Normalisierung von Daten aus verschiedenen Arten der Aufteilung derselben Population wird zu inkompatiblen Schlussfolgerungen über die Assoziationen führen, die in der Gesamtbevölkerung bestehen. "
Kartoffel
4

Ein wichtiges "Mitnehmen" ist, dass, wenn die Behandlungszuordnungen zwischen den Untergruppen unverhältnismäßig sind, Untergruppen bei der Analyse der Daten berücksichtigt werden müssen.

Ein zweites wichtiges "take away" ist, dass Beobachtungsstudien aufgrund des unbekannten Vorhandenseins von Simpsons Paradoxon besonders dazu neigen, falsche Antworten zu liefern. Das liegt daran, dass wir die Tatsache nicht korrigieren können, dass Behandlung A in der Regel für die schwierigeren Fälle angewendet wird, wenn wir nicht wissen, dass dies der Fall ist.

In a properly randomized study we can either (1) allocate treatment randomly so that giving an "unfair advantage" to one treatment is highly unlikely and will automatically get taken care of in the data analysis or, (2) if there is an important reason to do so, allocate the treatments randomly but disproportionately based on some known issue and then take that issue into account during the analysis.

Emil Friedman
quelle
+1, however "automatically get taken care of" isn't quite true (at least in the immediate situation, which is what you primarily care about). It is true in the long run, but you still can very much have type I & type II errors due to sampling error (ie, patients in 1 treatment condition tended to have more severe diseases by chance alone).
gung - Reinstate Monica
But the effect of sampling error will be taken into account when we analyze the contingency table and calculate and properly interpret the p-value.
Emil Friedman