Das Folgende ist eine Frage zu den vielen Visualisierungen, die als "Beweis durch Bild" für die Existenz von Simpsons Paradox angeboten werden, und möglicherweise eine Frage zur Terminologie.
Simpsons Paradoxon ist ein ziemlich einfaches Phänomen, das zu beschreiben und numerische Beispiele zu nennen ist (der Grund, warum dies passieren kann, ist tief und interessant). Das Paradoxe ist, dass es 2x2x2-Kontingenztabellen (Agresti, Categorical Data Analysis) gibt, in denen die marginale Assoziation von jeder bedingten Assoziation eine andere Richtung hat.
Das heißt, der Vergleich von Verhältnissen in zwei Subpopulationen kann beide in eine Richtung gehen, aber der Vergleich in der kombinierten Population geht in die andere Richtung. In Symbolen:
Es gibt so dass a + b
aber und
Dies wird in der folgenden Visualisierung (aus Wikipedia ) genau dargestellt :
Ein Bruch ist einfach die Steigung der entsprechenden Vektoren, und im Beispiel ist leicht zu erkennen, dass die kürzeren B-Vektoren eine größere Steigung als die entsprechenden L-Vektoren haben, der kombinierte B-Vektor jedoch eine kleinere Steigung als der kombinierte L-Vektor.
Es gibt eine sehr häufige Visualisierung in vielen Formen, insbesondere an der Vorderseite dieser Wikipedia-Referenz zu Simpson:
Dies ist ein großartiges Beispiel für die Verwirrung, wie eine versteckte Variable (die zwei Teilpopulationen trennt) ein anderes Muster zeigen kann.
Mathematisch gesehen entspricht ein solches Bild jedoch in keiner Weise einer Anzeige der Kontingenztabellen, die dem als Simpsons Paradoxon bekannten Phänomen zugrunde liegen . Erstens sind die Regressionslinien über realwertigen Punktsatzdaten und zählen keine Daten aus einer Kontingenztabelle.
Man kann auch Datensätze mit beliebiger Beziehung von Steigungen in den Regressionslinien erstellen, aber in Kontingenztabellen gibt es eine Einschränkung, wie unterschiedlich die Steigungen sein können. Das heißt, die Regressionslinie einer Population kann orthogonal zu allen Regressionen der gegebenen Subpopulationen sein. Aber in Simpsons Paradoxon können die Verhältnisse der Subpopulationen, obwohl keine Regressionssteigung, nicht zu weit von der amalgamierten Population abweichen, auch wenn sie in die andere Richtung weisen (siehe auch das Verhältnisvergleichsbild von Wikipedia).
Für mich ist das genug, um jedes Mal überrascht zu sein, wenn ich das letztere Bild als Visualisierung von Simpsons Paradoxon sehe. Aber da ich die (was ich falsch nenne) Beispiele überall sehe, bin ich neugierig zu wissen:
- Fehlt mir eine subtile Transformation von den ursprünglichen Simpson / Yule-Beispielen für Kontingenztabellen in reale Werte, die die Visualisierung der Regressionslinie rechtfertigen?
- Sicherlich ist Simpsons ein besonderer Fall von verwirrendem Fehler. Wurde der Begriff "Simpsons Paradoxon" nun mit einem verwirrenden Fehler gleichgesetzt , so dass unabhängig von der Mathematik jede Richtungsänderung über eine versteckte Variable als Simpsons Paradoxon bezeichnet werden kann?
Nachtrag: Hier ist ein Beispiel für eine Verallgemeinerung auf eine 2xmxn-Tabelle (oder 2 x m durch kontinuierliche Tabelle):
Wenn es über die Schussart verschmolzen ist, sieht es so aus, als würde ein Spieler mehr Schüsse abgeben, wenn die Verteidiger näher sind. Gruppiert nach Schussart (Entfernung zum Korb), tritt die intuitiv erwartete Situation auf, dass mehr Schüsse abgegeben werden, je weiter die Verteidiger entfernt sind.
Dieses Bild ist meines Erachtens eine Verallgemeinerung von Simpsons auf eine kontinuierlichere Situation (Entfernung der Verteidiger). Aber ich sehe immer noch nicht, wie das Beispiel der Regressionslinie ein Beispiel für Simpson ist.
quelle
Antworten:
Das Hauptproblem ist, dass Sie einen einfachen Weg gleichsetzen, um das Paradoxon als das Paradoxon selbst zu zeigen. Das einfache Beispiel der Kontingenztabelle ist nicht das Paradoxon an sich. In Simpsons Paradoxon geht es um widersprüchliche kausale Intuitionen beim Vergleich von marginalen und bedingten Assoziationen, meist aufgrund von Vorzeichenumkehrungen (oder extremen Abschwächungen wie Unabhängigkeit, wie im ursprünglichen Beispiel von Simpson selbst , in dem es keine Vorzeichenumkehr gibt). Das Paradoxon entsteht, wenn Sie beide Schätzungen kausal interpretieren, was zu unterschiedlichen Schlussfolgerungen führen kann - hilft oder verletzt die Behandlung den Patienten? Und welche Schätzung sollten Sie verwenden?
Das ist falsch! Simpsons Paradoxon ist kein besonderer Fall von verwirrendem Fehler - wenn es nur so wäre, gäbe es überhaupt kein Paradoxon. Wenn Sie sicher sind, dass eine Beziehung verwirrt ist, werden Sie nicht überrascht sein, Vorzeichenumkehrungen oder -schwächungen in Kontingenztabellen oder Regressionskoeffizienten zu sehen - vielleicht würden Sie das sogar erwarten.
Während sich Simpsons Paradoxon auf eine Umkehrung (oder extreme Abschwächung) von "Effekten" beim Vergleich von marginalen und bedingten Assoziationen bezieht, ist dies möglicherweise nicht auf Verwirrung zurückzuführen, und a priori können Sie nicht wissen, ob die marginale oder die bedingte Tabelle die "richtige" ist "eine zu konsultieren, um Ihre kausale Frage zu beantworten. Dazu müssen Sie mehr über die kausale Struktur des Problems wissen.
Betrachten Sie die folgenden Beispiele in Pearl :
Perles Erklärung, warum dies als "Paradoxon" angesehen wurde und warum es die Menschen immer noch verwirrt, ist sehr plausibel. Nehmen wir zum Beispiel den in (a) dargestellten einfachen Fall: Kausale Effekte können sich nicht einfach so umkehren. Wenn wir also fälschlicherweise annehmen, dass beide Schätzungen kausal sind (die marginale und die bedingte), wären wir überrascht, wenn so etwas passiert - und die Menschen scheinen in den meisten Assoziationen dazu verdrahtet zu sein, die Kausalität zu sehen.
Also zurück zu Ihrer Hauptfrage (Titel):
In gewissem Sinne ist dies die aktuelle Definition von Simpsons Paradoxon. Aber offensichtlich ist die Konditionierungsvariable nicht verborgen, sie muss beachtet werden, sonst würde das Paradoxon nicht auftreten. Der größte Teil des rätselhaften Teils des Paradoxons beruht auf kausalen Überlegungen, und diese "verborgene" Variable ist nicht unbedingt ein Störfaktor.
Kontingenztabellen und Regression
quelle
Ja. Eine ähnliche Darstellung kategorialer Analysen ist möglich, indem die logarithmischen Antwortwahrscheinlichkeiten auf der Y-Achse visualisiert werden. Simpsons Paradoxon sieht ähnlich aus, wenn eine "grobe" Linie gegen die schichtenspezifischen Trends verläuft, die in der Entfernung nach den schichtbezogenen logarithmischen Quoten des Ergebnisses gewichtet sind.
Hier ist ein Beispiel mit den Berkeley-Zulassungsdaten
Hier ist das Geschlecht ein männlicher / weiblicher Code, auf der X-Achse die rohen Zulassungsprotokollquoten für Männer gegenüber Frauen, die stark gestrichelte schwarze Linie zeigt die Präferenz des Geschlechts: Die positive Steigung deutet auf eine Tendenz zu männlichen Zulassungen hin. Die Farben stehen für die Zulassung zu bestimmten Abteilungen. In allen bis auf zwei Fällen ist die Steigung der abteilungsspezifischen Geschlechtspräferenzlinie negativ. Wenn diese Ergebnisse in einem logistischen Modell zusammengefasst werden, bei dem die Interaktion nicht berücksichtigt wird, ist der Gesamteffekt eine Umkehrung, die die Aufnahme von Frauen begünstigt. Sie bewarben sich häufiger in härteren Abteilungen als Männer.
Kurz gesagt, nein. Simpsons Paradoxon ist lediglich das "Was", während Verwirrung das "Warum" ist. Die vorherrschende Diskussion hat sich darauf konzentriert, wo sie übereinstimmen. Verwirrung kann einen minimalen oder vernachlässigbaren Einfluss auf Schätzungen haben, und alternativ kann Simpsons Paradoxon, obwohl es dramatisch ist, durch Nicht-Störfaktoren verursacht werden. Hinweis: Die Begriffe "versteckte" oder "lauernde" Variable sind ungenau. Aus epidemiologischer Sicht sollte eine sorgfältige Kontrolle und Gestaltung der Studie die Messung oder Kontrolle möglicher Faktoren ermöglichen, die zu einer verwirrenden Verzerrung beitragen. Sie müssen nicht "versteckt" sein, um ein Problem zu sein.
Es gibt Zeiten, in denen Punktschätzungen bis zur Umkehrung drastisch variieren können, was nicht auf Verwirrung zurückzuführen ist. Collider und Mediatoren sind ebenfalls Veränderungseffekte, die sie möglicherweise umkehren. Die kausale Argumentation warnt davor, dass für die Untersuchung von Effekten der Haupteffekt isoliert untersucht werden sollte, anstatt diese zu berücksichtigen, da die geschichtete Schätzung falsch ist. (Es ist vergleichbar mit der falschen Schlussfolgerung, dass der Arztbesuch Sie krank macht oder dass Waffen Menschen töten, daher töten Menschen keine Menschen).
quelle