Palantirs asiatischer Diskriminierungsfall: Wie wurden die Wahrscheinlichkeiten berechnet?

14

Ich habe diesen Artikel über Palantirs Fall gelesen, in dem die Abteilung für Arbeit sie beschuldigt, Asiaten diskriminiert zu haben. Weiß jemand, woher diese Wahrscheinlichkeitsschätzungen stammen?

Ich erhalte nicht 1/741 in Punkt (a).

(a) Für die Position als QA-Ingenieur stellte Palantir aus einem Pool von mehr als 730 qualifizierten Bewerbern - von denen etwa 77% aus Asien stammten - sechs nicht-asiatische und nur einen asiatischen Bewerber ein. Die vom OFCCP berechneten negativen Auswirkungen überschreiten drei Standardabweichungen. Die Wahrscheinlichkeit, dass dieses Ergebnis zufällig eintrat, liegt bei ungefähr einem von 741.

(b) Für die Position als Softwareingenieur stellte Palantir aus einem Pool von mehr als 1.160 qualifizierten Bewerbern - von denen ca. 85% aus Asien stammten - 14 nicht-asiatische Bewerber und nur 11 asiatische Bewerber ein. Die vom OFCCP berechneten negativen Auswirkungen überschreiten fünf Standardabweichungen. Die Wahrscheinlichkeit, dass dieses Ergebnis zufällig eintrat, liegt bei etwa einem Drittel von 3,4 Millionen.

(c) Für die Position als QA Engineer Intern stellte Palantir aus einem Pool von mehr als 130 qualifizierten Bewerbern - etwa 73% von ihnen waren Asiaten - 17 nicht-asiatische Bewerber und nur vier asiatische Bewerber ein. Die vom OFCCP berechneten negativen Auswirkungen überschreiten sechs Standardabweichungen. Die Wahrscheinlichkeit, dass dieses Ergebnis zufällig eintrat, liegt bei etwa einem Drittel der Milliarde.

Aksakal
quelle
Können Sie die Berechnung zeigen, die Sie durchgeführt haben, um etwas anderes als 1/741 zu erhalten?
Ben Bolker
1
Meine Schätzung war einseitig - wenn Sie es verdoppeln, um es wie einen zweiseitigen Hypothesentest zu machen, kommen Sie dieser 1/741-Zahl ziemlich nahe.
Gregor
3
Ich stimme zu, dass das Verdoppeln in diesem Fall keinen Sinn ergibt. Ich habe nur versucht zu erraten, was hätte getan werden können. Die Frage ist nicht, was die richtige Antwort ist, sondern wie sie zu dieser Schätzung gekommen sind .
Gregor
1
Es wäre großartig, wenn jemand den PDF-Screenshot in ein Textzitat umwandeln würde ...
Amöbe sagt Reinstate Monica
1
Ich habe es geschafft, Ihren Screenshot mit finereaderonline.com zu OCR .
Amöbe sagt Reinstate Monica

Antworten:

20

Ich werde dies aus Erfahrung mit Diskriminierungsfällen rückentwickeln. Ich kann definitiv feststellen, woher die Werte von "one in 741" usw. stammen. Bei der Übersetzung gingen jedoch so viele Informationen verloren, dass der Rest meiner Rekonstruktion davon abhängt, wie Menschen Statistiken in Gerichtssälen erstellen. Ich kann nur einige Details erraten.


Seit der Verabschiedung der Antidiskriminierungsgesetze in den 1960er Jahren (Titel VI) haben die Gerichte in den USA gelernt, p-Werte zu betrachten und mit Schwellenwerten von und 0,01 zu vergleichen0.050.01 . Sie haben auch gelernt, standardisierte Effekte zu betrachten, die typischerweise als "Standardabweichungen" bezeichnet werden, und sie mit einem Schwellenwert von "zwei bis drei Standardabweichungen" zu vergleichen. Um einen Anscheinsbeweis für eine Diskriminierungsklage zu erbringen, versuchen die Kläger typischerweise eine statistische Berechnung, die eine "unterschiedliche Auswirkung" zeigt, die diese Schwellenwerte überschreitet. Wenn eine solche Berechnung nicht unterstützt werden kann, kann der Fall normalerweise nicht voranschreiten.

Statistiker für Kläger versuchen oft, ihre Ergebnisse mit diesen bekannten Begriffen zu formulieren. Einige der Experten führen einen statistischen Test durch, bei dem die Nullhypothese "keine nachteiligen Auswirkungen" ausdrückt, vorausgesetzt, dass die Beschäftigungsentscheidungen rein zufällig getroffen wurden und von anderen Merkmalen der Beschäftigten nicht beeinflusst wurden. (Ob es sich um eine einseitige oder zweiseitige Alternative handelt, hängt vom Sachverständigen und den Umständen ab.) Anschließend wandeln sie den p-Wert dieses Tests in eine Reihe von "Standardabweichungen" um, indem sie ihn auf die Standardnormalverteilung beziehen. - Auch wenn die Standardnormale für den ursprünglichen Test irrelevant ist. Auf diese Weise hoffen sie, dem Richter ihre Schlussfolgerungen klar mitzuteilen.

Der bevorzugte Test für Daten, die in Kontingenztabellen zusammengefasst werden können, ist der Fisher's Exact Test. Das Auftreten von "Exact" in seinem Namen ist für die Kläger besonders erfreulich, da es eine statistische Feststellung darstellt, die getroffen wurde die ohne Fehler getroffen wurde (was auch immer das sein mag!).

Hier ist also meine (spekulative) Rekonstruktion der Berechnungen des Arbeitsministeriums.

  1. Sie liefen Fisher's Exact Test oder so ähnlich (wie ein χ2 -Test mit einem durch Randomisierung bestimmten p-Wert). Dieser Test geht von einer hypergeometrischen Verteilung aus, wie in Matthew Gunns Antwort beschrieben. (Bei der geringen Anzahl von Personen, die an dieser Beschwerde beteiligt sind, ist die hypergeometrische Verteilung durch eine Normalverteilung nicht gut angenähert.)

  2. Sie wandelten seinen p-Wert in einen normalen Z-Wert ("Anzahl der Standardabweichungen") um.

  3. Sie rundeten den Z-Wert auf die nächste ganze Zahl: "überschreitet drei Standardabweichungen", "überschreitet fünf Standardabweichungen" und "überschreitet sechs Standardabweichungen". (Da einige dieser Z-Scores , die gerundet bis zu mehr Standardabweichungen, kann ich nicht rechtfertigen die „überschreitet“, alles , was ich tun kann , ist es zu zitieren.)

  4. In der Reklamation wurden diese ganzzahligen Z-Werte wieder in p-Werte umgerechnet! Wieder wurde die Standardnormalverteilung verwendet.

  5. Diese p-Werte werden (wohl irreführend) als "Wahrscheinlichkeit, dass dieses Ergebnis zufällig auftritt" beschrieben.

1/12801/5650001/58000000730116013073011601303.164.645.521/7411/35000001/1000000000


Hier ist ein RCode, der zum Ausführen dieser Berechnungen verwendet wird.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))
whuber
quelle
6
Wow, ich konnte mir nicht vorstellen, dass das möglich ist. Das ist beängstigend.
Aksakal
7
(+1) CSI: Statistik.
Firebug
5

So berechnen Sie pvals richtig mit der hypergeometrischen Verteilung:

Zeichnung k Erfolge in n Versuche ersatzlos aus einem Set mit K Erfolge inmitten N Die Gesamtzahl der Artikel folgt dem hypergeometrischen Verteilung .

Für einen einseitigen Test können Sie in MATLAB anrufen pval = hygecdf(k, N, K, n); oder in diesem Fall pval = hygecdf(1, 730, 562, 7).0007839 aufrufen.

Mittelwert und Standardabweichung sind gegeben durch:

μ=nKNs=nKNNKNNnN1
Thus we're -3.957 standard deviations outside the mean.

I've tried various things to replicate the p-values (eg. hypergeometric cdf, χ2 test, z-test), but I can't get an exact match. (Update: WHuber's answer has an algorithm that produces an exact match... it's scary stuff!)

Looking for formulas the OFCCP might use, this site I saw may perhaps be helpful: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Summary of some calculations:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

For χ2 stat I used the standard (expectedactual)2expected over the four cells.

Matthew Gunn
quelle
1
I got the same result but differently. It's not close to 1/741
Aksakal