Ich habe wahrscheinlich kein klares Verständnis für das Simpson-Paradoxon . Informell weiß ich, dass der Durchschnitt der Antwort Y1, gruppiert über alle möglichen Niveaus von Faktor A, höher sein kann als der Durchschnitt der Antwort Y2 über alle Niveaus von A, selbst wenn der Durchschnitt von Y1 für jedes Niveau von A (jede Gruppe) ist immer kleiner als der entsprechende Durchschnitt von Y2. Ich habe Beispiele gelesen, aber ich wundere mich jedes Mal, wenn ich sie sehe, vielleicht, weil ich durch bestimmte Beispiele nicht gut lerne: Ich habe Probleme, sie zu verallgemeinern. Ich lerne am besten und möchte lieber eine Erklärung in Formeln sehen. Können Sie bitte das Paradox erklären, das auf Gleichungen beruht, anstatt Tabellen zu zählen?
Ich denke auch, dass der Grund für meine Überraschung darin besteht, dass ich unbewusst einige Annahmen über die Durchschnittswerte treffen könnte, die mit dem Paradox zusammenhängen, was im Allgemeinen möglicherweise nicht zutrifft. Vielleicht habe ich vergessen, die Anzahl der Proben in jeder Gruppe zu gewichten? Aber dann möchte ich eine Gleichung sehen, die mir zeigt, dass die Schätzung des Gesamtdurchschnitts genauer ist, wenn ich jeden Gruppendurchschnitt mit der Anzahl der Stichproben in jeder Gruppe gewichte, da dies (falls dies zutrifft) nicht offensichtlich ist für mich im Allgemeinen. Naiv würde ich denken, dass die Schätzung von einen niedrigeren Standardfehler hat, wenn ich mehr Stichproben habe, unabhängig von der Gewichtung.
Antworten:
Hier ist ein allgemeiner Ansatz zum algebraischen Verständnis von Simpsons Paradox für Zählungsdaten.
Angenommen, wir haben Überlebensdaten für eine Exposition und erstellen eine 2x2-Kontingenztabelle. Um die Dinge einfach zu halten, werden wir in jeder Zelle die gleichen Zählungen haben. Wir könnten das lockern, aber es würde die Algebra ziemlich chaotisch machen.
In diesem Fall ist die Sterblichkeitsrate sowohl in der exponierten als auch in der nicht exponierten Gruppe gleich.
Wenn wir nun die Daten aufteilen, beispielsweise in eine Gruppe für Frauen und eine andere Gruppe für Männer, erhalten wir zwei Tabellen mit den folgenden Zählungen:
Männer:AusgesetztUnerwartetIst gestorbenXeinXcÜberlebtXbXdTodesrateeina + bcc+ d
und für Frauen:AusgesetztUnerwartetIst gestorbenX( a - 1 )X( c - 1 )ÜberlebtX( b - 1 )X( d- 1 )Todesratea - 1a + b - 2c - 1c +d- 2
wobeia , b , c , d∈ [ 0 , 1 ] die Anteile jeder Zelle in der aggregierten Datentabelle sind, die männlich sind.
Simpsons Paradoxon tritt auf, wenn die Sterblichkeitsrate exponierter Männer höher ist als die Sterblichkeitsrate nicht exponierter Männer UND die Sterblichkeitsrate exponierter Frauen höher ist als die Sterblichkeitsrate nicht exponierter Frauen. Alternativ dazu tritt es auch auf, wenn die Sterblichkeitsrate für exponierte Männer geringer ist als die Sterblichkeitsrate für nicht exponierte Männer UND die Sterblichkeitsrate für exponierte Frauen geringer ist als die Frauen. Das ist wenn
Als konkretes Beispiel seiX= 100 und a = 0,5 , b = 0,8 , c = 0,9 . Dann haben wir Simpsons Paradox, wenn:
Daraus schließen wir, dass d in liegen muss( 0,96 , 1 ]
Die 2. Menge von Ungleichungen ergibt:
which has no solution ford∈[0,1]
So for the three values that we chose fora,b, and c , to invoke Simpson's paradox, d must be greater than 0.96. In the case where the value was 0.99 then we would obtain a Death Rate for Males of
and for Females:
So, males have a higher death rate in the unexposed group than in the exposed group, and females also have a higher death rate in the unexposed group than the exposed group, yet the death rates in the aggregated data are the same for exposed and unexposed.
quelle
Suppose we have data on 2 variables,x and y , for 2 groups, A and B.
Data in group A are such that the fitted regression line is
with mean values of2 and 9 for x and y respectively.
Data in group B are such that the fitted regression line is
with mean values of11 and 14 for x and y respectively.
So the regression coefficient forx is −1 in both groups.
Further, let there be equal numbers of observations in each group, with both and y distributed symmetrically. We now wish to compute the overall regression line. To keep matters simple we will assume that the overall regression line passes through the means of each group, that is(2,9) for group A and (11,14) for group B. Then it is easy to see that the overall regression line slope must be ( 14 - 9 ) / ( 11 - 2 ) = 0,55 das ist der Gesamtregressionskoeffizient für x . So sehen wir Simpsons Paradoxon in Aktion - wir haben eine negative Assoziation vonx mit y in jeder Gruppe einzeln, aber insgesamt eine positive Assoziation, wenn die Daten aggregiert werden. Wir können dies leicht in R wie folgt demonstrieren:
Die roten Punkte und die Regressionslinie sind Gruppe A, die blauen Punkte und die Regressionslinie sind Gruppe B und die schwarze Linie ist die gesamte Regressionslinie.
quelle