Können Sie bitte Simpsons Paradoxon mit Gleichungen anstelle von Kontingenztabellen erklären?

14

Ich habe wahrscheinlich kein klares Verständnis für das Simpson-Paradoxon . Informell weiß ich, dass der Durchschnitt der Antwort Y1, gruppiert über alle möglichen Niveaus von Faktor A, höher sein kann als der Durchschnitt der Antwort Y2 über alle Niveaus von A, selbst wenn der Durchschnitt von Y1 für jedes Niveau von A (jede Gruppe) ist immer kleiner als der entsprechende Durchschnitt von Y2. Ich habe Beispiele gelesen, aber ich wundere mich jedes Mal, wenn ich sie sehe, vielleicht, weil ich durch bestimmte Beispiele nicht gut lerne: Ich habe Probleme, sie zu verallgemeinern. Ich lerne am besten und möchte lieber eine Erklärung in Formeln sehen. Können Sie bitte das Paradox erklären, das auf Gleichungen beruht, anstatt Tabellen zu zählen?

Ich denke auch, dass der Grund für meine Überraschung darin besteht, dass ich unbewusst einige Annahmen über die Durchschnittswerte treffen könnte, die mit dem Paradox zusammenhängen, was im Allgemeinen möglicherweise nicht zutrifft. Vielleicht habe ich vergessen, die Anzahl der Proben in jeder Gruppe zu gewichten? Aber dann möchte ich eine Gleichung sehen, die mir zeigt, dass die Schätzung des Gesamtdurchschnitts genauer ist, wenn ich jeden Gruppendurchschnitt mit der Anzahl der Stichproben in jeder Gruppe gewichte, da dies (falls dies zutrifft) nicht offensichtlich ist für mich im Allgemeinen. Naiv würde ich denken, dass die Schätzung von E[Y.1] einen niedrigeren Standardfehler hat, wenn ich mehr Stichproben habe, unabhängig von der Gewichtung.

DeltaIV
quelle
1
Ich habe einen ähnlichen Beitrag hier mit Simulationen. Die Simulation kann hilfreich sein, damit Sie Simpsons Paradoxon verstehen
Haitao Du
Hier ist eine Maschine, die Simpsons Paradoxe nach Bedarf produziert!
kjetil b halvorsen

Antworten:

11

Hier ist ein allgemeiner Ansatz zum algebraischen Verständnis von Simpsons Paradox für Zählungsdaten.

Angenommen, wir haben Überlebensdaten für eine Exposition und erstellen eine 2x2-Kontingenztabelle. Um die Dinge einfach zu halten, werden wir in jeder Zelle die gleichen Zählungen haben. Wir könnten das lockern, aber es würde die Algebra ziemlich chaotisch machen.

Ist gestorbenÜberlebtTodesrateAusgesetztXX0,5UnerwartetXX0,5

In diesem Fall ist die Sterblichkeitsrate sowohl in der exponierten als auch in der nicht exponierten Gruppe gleich.

Wenn wir nun die Daten aufteilen, beispielsweise in eine Gruppe für Frauen und eine andere Gruppe für Männer, erhalten wir zwei Tabellen mit den folgenden Zählungen:

Männer:

Ist gestorbenÜberlebtTodesrateAusgesetztXeinXbeinein+bUnerwartetXcXdcc+d

und für Frauen:

Ist gestorbenÜberlebtTodesrateAusgesetztX(ein-1)X(b-1)ein-1ein+b-2UnerwartetX(c-1)X(d-1)c-1c+d-2

wobei ein,b,c,d[0,1] die Anteile jeder Zelle in der aggregierten Datentabelle sind, die männlich sind.

Simpsons Paradoxon tritt auf, wenn die Sterblichkeitsrate exponierter Männer höher ist als die Sterblichkeitsrate nicht exponierter Männer UND die Sterblichkeitsrate exponierter Frauen höher ist als die Sterblichkeitsrate nicht exponierter Frauen. Alternativ dazu tritt es auch auf, wenn die Sterblichkeitsrate für exponierte Männer geringer ist als die Sterblichkeitsrate für nicht exponierte Männer UND die Sterblichkeitsrate für exponierte Frauen geringer ist als die Frauen. Das ist wenn

(einein+b<cc+d) und (ein-1ein+b-2<c-1c+d-2)

Oder 

(einein+b>cc+d) und (ein-1ein+b-2>c-1c+d-2)

Als konkretes Beispiel sei X=100 und ein=0,5,b=0.8,c=0.9 . Dann haben wir Simpsons Paradox, wenn:

(0,50.8+0.9<0.90.9+d) und (0,5-10,5+0.8-2<0.9-10.9+d-2)

(-9<d<1,44) und (0,96<d<1.1)

Daraus schließen wir, dass d in liegen muss (0,96,1]

Die 2. Menge von Ungleichungen ergibt:

(0.50.8+0.9>0.90.9+d) and (0.510.5+0.82>0.910.9+d2)

(d<0.9 or d>1.44) and (0.96<d or d>1.44)

which has no solution for d[0,1]

So for the three values that we chose for a,b, and c, to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of

0.5/(0.5+0.8)=38% in the exposed group
0.9/(0.9+0.99)=48% in the unexposed group

and for Females:

(0.51)/(0.5+0.82)=71% in the exposed group
(0.91)/(0.9+0.992)=91% in the unexposed group

So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.

Robert Long
quelle
16

Suppose we have data on 2 variables, x and y, for 2 groups, A and B.

Data in group A are such that the fitted regression line is

y=11x

with mean values of 2 and 9 for x and y respectively.

Data in group B are such that the fitted regression line is

y=25x

with mean values of 11 and 14 for x and y respectively.

So the regression coefficient for x is 1 in both groups.

Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is (2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be (14-9)/(11-2)=0,55 das ist der Gesamtregressionskoeffizient für x. So sehen wir Simpsons Paradoxon in Aktion - wir haben eine negative Assoziation vonx mit yin jeder Gruppe einzeln, aber insgesamt eine positive Assoziation, wenn die Daten aggregiert werden. Wir können dies leicht in R wie folgt demonstrieren:

rm(list=ls())
Xa <- c(1,2,3)
Ya <- c(10,9,8)
m0 <- lm(Ya~Xa)
plot(Xa,Ya, xlim=c(0,20), ylim=c(5,20), col="red")
abline(m0, col="red")

Xb <- c(10,11,12)
Yb <- c(15,14,13)
m1 <- lm(Yb~Xb)
points(Xb,Yb, col="blue")
abline(m1, col="blue")

X <- c(Xa,Xb)
Y <- c(Ya,Yb)
m2 <- lm(Y~X)
abline(m2, col="black")

Bildbeschreibung hier eingeben

Die roten Punkte und die Regressionslinie sind Gruppe A, die blauen Punkte und die Regressionslinie sind Gruppe B und die schwarze Linie ist die gesamte Regressionslinie.

Robert Long
quelle
Hallo, danke für die Antwort, aber dies ist ein weiteres konkretes Beispiel für das Simpson-Paradoxon. Ich habe speziell nach etwas in Form eines Theorems oder einer Reihe von Gleichungen gefragt, nach einem abstrakteren und allgemeineren Ansatz. Wie auch immer, da es keine anderen Antworten gibt, werde ich Ihr Beispiel studieren und wenn ich das Gefühl habe, dass es mir hilft, das Konzept zu verallgemeinern, werde ich die Antwort akzeptieren.
DeltaIV
3
@ DeltaIV Ich habe eine neue Antwort mit rein algebraischen Argumenten geschrieben.
Robert Long