Voreingenommenheit bei der Auswahl der Jury?

14

Ein Freund vertritt einen Klienten im Berufungsverfahren nach einem Strafverfahren, in dem es den Anschein hat, dass die Auswahl der Jury rassistisch voreingenommen war.

Der Jurypool bestand aus 30 Personen in 4 Rassengruppen. Die Staatsanwaltschaft nutzte peremptoristische Herausforderungen, um 10 dieser Personen aus dem Pool zu entfernen. Die Anzahl der Personen und die Anzahl der tatsächlichen Herausforderungen in jeder Rassengruppe waren:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Der Angeklagte stammte aus der Rassengruppe C und die Opfer aus den Rassengruppen A und D, weshalb von vornherein zu befürchten ist , dass die Gruppe C überfordert und die Gruppen A und D unterfordert sind. Gesetzlich (IIUC; IANAL), hat die Verteidigung nicht müssen beweisen , rassistische Vorurteile, sondern nur um zu zeigen , dass die Daten scheinen Bias , um anzuzeigen, die dann die Belastung für die Strafverfolgung setzt jede Herausforderung nicht-rassistisch zu erklären.

Ist die folgende Analyse in ihrem Ansatz korrekt? (Ich denke, die Berechnungen sind in Ordnung.):

Es gibt nCr (30,10) = 30.045.015 verschiedene Gruppen von 10 Poolmitgliedern. Von diesen unterschiedlichen Sätzen zähle ich, dass 433.377 Sätze sowohl (nicht mehr als 2 Mitglieder der Gruppe A und D zusammen) als auch (nicht weniger als 4 Mitglieder der Gruppe C) umfassen.

Die Chance, den beobachteten Grad der offensichtlichen Verzerrung zu erreichen, die die Gruppen A und D gegenüber der Gruppe C begünstigt (wobei das Begünstigen bedeutet, dass es nicht in den 10 Herausforderungen enthalten ist), wäre das Verhältnis von diesen, 433/30045 = 1,44%.

Somit wird die Nullhypothese (keine solche Verzerrung) auf dem Signifikanzniveau von 5% verworfen.

Wenn diese Analyse methodisch korrekt ist, wie lässt sie sich für ein Gericht am prägnantesten beschreiben, einschließlich einer akademischen / beruflichen Referenz (dh nicht Wikipedia)? Während das Argument einfach zu sein scheint, wie kann man dem Gericht am klarsten und prägnantesten beweisen, dass es richtig ist, nicht Spielereien?


Update: Diese Frage wurde als tertiäres Argument in einem Berufungsverfahren geprüft. Angesichts der technischen Komplexität (aus der Sicht des Anwalts) der Diskussion hier und des offensichtlichen Mangels an Präzedenzfällen hat der Anwalt beschlossen, diese nicht zur Sprache zu bringen. Daher ist die Frage an dieser Stelle hauptsächlich theoretisch / pädagogisch.

Um ein Detail zu beantworten: Ich glaube, dass die Anzahl der Herausforderungen, 10, im Voraus festgelegt wurde.

Nach dem Studium der nachdenklichen und herausfordernden Antworten und Kommentare (danke an alle!) Scheint es, dass es hier 4 verschiedene Probleme gibt. Zumindest für mich wäre es am hilfreichsten, sie getrennt zu betrachten (oder Argumente zu hören, warum sie nicht trennbar sind.)

1) Ist die Berücksichtigung der Rennen der beiden Angeklagten und Opfer, in den Geschworenen Herausforderungen rechtlicher Bedenken von vornherein ? Das Ziel des Berufungsarguments wäre lediglich, angemessene Bedenken zu wecken, was zu einer gerichtlichen Anordnung führen könnte, dass die Staatsanwaltschaft den Grund für jede einzelne Klage angibt. Dies scheint mir keine statistische, sondern eine soziale / rechtliche Frage zu sein, die der Anwalt nach eigenem Ermessen stellen kann oder nicht.

2) Angenommen (1), ist meine Wahl einer alternativen Hypothese (qualitativ: Voreingenommenheit gegenüber Geschworenen, die die Rasse des Angeklagten teilen, zugunsten derjenigen, die die Rassen der Opfer teilen) plausibel, oder ist sie post hoc unzulässig ? Aus meiner Sicht ist dies die verwirrendste Frage - ja, natürlich würde man sie nicht stellen, wenn man sie nicht beachtet! Das Problem ist meines Wissens die Auswahlverzerrung: Bei den Tests sollte nicht nur dieser Jurypool berücksichtigt werden, sondern auch das Universum aller dieser Jurypools, einschließlich derer, bei denen die Verteidigung keine Diskrepanzen festgestellt hat und daher nicht versucht war, das Problem anzusprechen . Wie geht man damit um? (Zum Beispiel, wie geht Andys Test damit um?) Auch wenn ich mich irre, scheinen die meisten Befragten nicht von potenziellen Post-hoc- Problemen betroffen zu sein1-tailed-Tests für Voreingenommenheit ausschließlich gegen die Gruppe des Angeklagten. Wie wäre es methodisch anders, unter der Annahme von (1) gleichzeitig die Voreingenommenheit für Opfergruppen zu testen?

3) Wenn ich eine qualitative Alternativhypothese nach (2) wähle, was ist dann eine geeignete Statistik, um sie zu testen? Dies ist der Punkt, an dem mich die Antworten am meisten verwundern, da das von mir vorgeschlagene Verhältnis ein etwas konservativeres Analogon zu Andys Test für die einfachere "Voreingenommenheit gegen C" -Alternativhypothese zu sein scheint (konservativer, da mein Test auch alle Fälle weiter außen zählt) im Schwanz nicht nur die exakt beobachtete Zählung.)

Beide Tests sind einfache Zähltests mit demselben Nenner (demselben Stichprobenuniversum) und mit Zählern, die genau der Häufigkeit der Stichproben entsprechen, die den jeweiligen Alternativhypothesen entsprechen. @Whuber, warum ist es für meinen Zähltest nicht identisch mit dem von Andy, dass er "auf festgelegten Nullhypothesen und alternativen Hypothesen beruhen kann, die unter Verwendung des Neyman-Pearson-Lemmas gerechtfertigt sind"?

4) Wenn man (2) und (3) festlegt, gibt es Hinweise in der Rechtsprechung, die ein skeptisches Berufungsgericht überzeugen würden? Nach den bisherigen Erkenntnissen wahrscheinlich nicht. Auch in dieser Phase der Berufung gibt es keine Möglichkeit für einen "Sachverständigen", so dass Referenzen alles sind.

JD March
quelle
Die Frage wurde nach dem Studium der Antworten und Kommentare aktualisiert (angehängt).
JD
Vielen Dank für eine hervorragende Zusammenfassung! Um auf Punkt (3) zu antworten, ist es meine Sorge, dass Ihr Test (wenn ich ihn richtig verstehe) eine alternative Hypothese annimmt, die durch die Daten selbst motiviert wurde. Es scheint daher a posteriori konstruiert worden zu sein, um die Ergebnisse so stark wie möglich erscheinen zu lassen. Ein Test, der auf einer möglichst breiten vorhersehbaren, relevanten Klasse von Alternativen a priori basiert und mit einer Neyman-Pearson-Ablehnungsregion durchgeführt wird, hat eine stärkere logische Grundlage und wird weniger kritisiert, als dies nach Einsicht in die Daten vorgeschlagen wurde.
whuber
Danke, @whuber, das ist eine plausible und hilfreiche Kritik - sehr viel, wonach ich von Anfang an gefragt habe. Aber würde das nicht dazu führen, dass mein (2) selbst vor (3) versagt? Wenn ja, dann scheint meine (3) noch unbeantwortet zu sein - dh wäre dies eine gute Statistik, wenn man (2) vorschreibt?
JD

Antworten:

7

Hier erfahren Sie, wie ich Ihre Frage mithilfe von statistischen Standardwerkzeugen beantworten kann.

Nachfolgend finden Sie die Ergebnisse einer Probit-Analyse zur Wahrscheinlichkeit der Ablehnung aufgrund der Gruppenzugehörigkeit des Jurors.

Zunächst sehen Sie, wie die Daten aussehen. Ich habe 30 Beobachtungen der Gruppe und einen binären abgelehnten Indikator:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

Hier sind die einzelnen Randeffekte sowie der Fugentest:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Hier testen wir die einzelnen Hypothesen, dass die Unterschiede in der Wahrscheinlichkeit der Ablehnung für die Gruppen A, C und D im Vergleich zu Gruppe B Null sind. Wenn alle genauso wahrscheinlich abgelehnt würden wie Gruppe B, wären diese Null. Die letzte Ausgabe besagt, dass Geschworene der Gruppe A und D mit geringerer Wahrscheinlichkeit abgelehnt werden, während Geschworene der Gruppe C mit höherer Wahrscheinlichkeit abgelehnt werden. Diese Unterschiede sind für sich genommen nicht statistisch signifikant, obwohl die Vorzeichen mit Ihrer Vorurteilsvermutung übereinstimmen.

Wir können jedoch die gemeinsame Hypothese ablehnen, dass die drei Differenzen bei alle Null sind .p=0,0436


Nachtrag:

Wenn ich die Gruppen A und D zu einer kombiniere, da sie die Rennen der Opfer teilen, werden die Probit-Ergebnisse stärker und weisen eine schöne Symmetrie auf:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Dadurch kann Fisher's exact auch kongruente Ergebnisse liefern (allerdings immer noch nicht bei 5%):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060
Dimitriy V. Masterov
quelle
Danke, sehr angenehm! Könnten Sie mir helfen, die methodischen Probleme hier zu verstehen? Insbesondere (1) die ungerichteten Vergleichstests (IIUC) trotz der Besonderheiten des A-priori- Problems und (2) die Gründe für die Verwendung eines Tests, der eher Verteilungsannahmen als nur kombinatorische Argumente enthält?
JD
Ich bin mir nicht sicher, ob ich verstehe (1). Für (2) erhalte ich mit einem Logit-Modell, das unterschiedliche Verteilungsannahmen verwendet, sehr ähnliche Ergebnisse, sodass eine gewisse Robustheit gegeben ist. Es gibt nicht genügend Daten, um etwas weniger Parametrisches zu tun, obwohl dies möglicherweise meine eigene Unkenntnis in diesem Bereich ist.
Dimitriy V. Masterov
1
Zu (1). Was ich meine ist - es scheint, dass Ihr Test 2-Schwanz ist, wohingegen die a priori Sorge 1-Schwanz erlauben würde?
JD
1
Ein Aspekt dieser Analyse, der mich beunruhigt, ist, dass seine offensichtliche Bedeutung (auf jeden Fall bei 5%) nicht nur auf die in Gruppe C auftretenden Herausforderungen zurückzuführen ist, sondern auch auf die relativ geringe Anzahl von Herausforderungen in Gruppe A. Letzteres scheint irrelevant sein: wäre es a priori vermutet worden ? Die bevorzugte Rolle der Gruppe C ist offensichtlich (in Übereinstimmung mit der Gruppe des Beklagten), aber eine bevorzugte Rolle für eine andere Gruppe - oder sogar für (hypothetisch) offensichtliche Ungleichheiten zwischen den anderen Gruppen - scheint keinen Einfluss auf die Behauptung des Beklagten zu haben Diskriminierung aufgrund ihrer Gruppe .
Whuber
Übrigens, es scheint, dass Sie eine Analyse der Gruppe B und nicht der Gruppe C durchgeführt haben.
whuber
3

Ich würde denken, dass die Einführung einer statistischen Ad-hoc- Methode ein No-Go für das Gericht sein wird. Es ist besser, Methoden zu verwenden, die "Standardpraxis" sind. Andernfalls müssen Sie wahrscheinlich Ihre Qualifikationen nachweisen, um neue Methoden zu entwickeln.

Genauer gesagt glaube ich nicht, dass Ihre Methode den Daubert-Standard erfüllen würde. Ich bezweifle auch sehr, dass Ihre Methode einen akademischen Bezug an und für sich hat. Sie müssten wahrscheinlich einen statistischen Sachverständigen einstellen, um ihn vorzustellen. Es wäre leicht zu kontern, würde ich denken.

Die grundlegende Frage ist wahrscheinlich: "War die Jury-Herausforderung unabhängig von der Rassengruppierung?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Die Verwendung des genauen Fisher-Tests liefert ähnliche Ergebnisse:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

Meine Interpretation ist, dass es nicht viele Beweise gibt, um rassistische Vorurteile zu argumentieren.

jvbraun
quelle
1
χ2 Test mögliche Unterschiede zwischen allen Gruppen bewertet werden, werden teilweise Unterschiede in der Herausforderungsrate zwischen den Gruppen A, B und D gemessen. Die Anwälte könnten argumentieren, dass die Gruppen A und D unterschieden werden (als Opfer) Dies legt jedoch nahe, diese Gruppen für diesen Test zu kombinieren. Der resultierende p-Wert erhöht sich auf 16% (simuliert basierend auf einer Million Replikationen). Dies stärkt Ihre Schlussfolgerung (+1).
Whuber
Vielen Dank, @jvbraun, Ihre Bemerkung, dass Ad-hoc-Methoden nicht zum Einsatz kommen, scheint zu überzeugen. Obwohl Zählen und Teilen für mich nicht besonders exzentrisch erscheinen, finden es andere offensichtlich nicht überzeugend!
JD
Dies ist tatsächlich einer der Fälle, in denen die Ränder festgelegt sind, so dass Fischers genauer Test für viele schmackhafter sein sollte. In Ihrer Diskussion über Daubert haben Sie es ein bisschen verkehrt herum, wenn Sie einen Experten anrufen, dann unterliegen sie einem Daubert-Antrag. (Ironischerweise haben einige argumentiert, dass Laien, die Statistiken vorlegen, nicht solchen nach Artikel 702 vorgeschriebenen Bewertungen unterliegen.) IMO Alle hier vorgebrachten Argumente sind gut formuliert und werden wahrscheinlich nicht für unzulässig befunden. Ich bezweifle, dass eine dieser statistischen Techniken unter diesen besonderen Umständen die Rechtsprechung hat.
Andy W
χ2
χ22/24/6 . In allen mir vertrauten Staaten ist die Gesamtzahl der peremptoristischen Herausforderungen für jede Seite festgelegt und hängt von der Schwere des Falls ab (dh Verbrechensfälle bekommen jede Seite mehr als in Fällen von Vergehen).
Andy W
3

Ich habe vorher eine ähnliche Frage gestellt (als Referenz hier der spezielle Fall, den ich diskutiere). Die Verteidigung muss lediglich den ersten Anschein einer Diskriminierung bei Batson-Herausforderungen erwecken (unter der Annahme des US-amerikanischen Strafrechts) - daher sind Hypothesentests wahrscheinlich eine größere Belastung als erforderlich.

So für:

  • n=30
  • p=6
  • k=4
  • d=10

Whubers vorherige Antwort gibt die Wahrscheinlichkeit an, dass dieses spezielle Ergebnis durch die hypergeometrische Verteilung bestimmt wird :

(pk)(npdk)(nd)

Welche Wolfram-Alpha sagt, ist in diesem Fall gleich:

(64)(306104)(3010)=7611310.07

Leider habe ich neben den von mir bereitgestellten Links keinen Verweis - ich stelle mir vor, Sie können auf der Wikipedia-Seite einen geeigneten Verweis für die hypergeometrische Verteilung finden.

Dies ignoriert die Frage, ob die Rassengruppen A und D "unterfordert" sind. Ich bin skeptisch, dass Sie ein rechtliches Argument dafür vorbringen könnten - es wäre eine merkwürdige Wendung in der Klausel über den gleichen Schutz. Diese bestimmte Gruppe ist zu geschützt! , dass ich nicht denke, würde fliegen. (Ich bin zwar kein Anwalt - nehmen Sie also ein Körnchen Salz mit.)

(3010)χ2


Ich habe einige meiner Gedanken in einem Blogbeitrag aktualisiert . Mein Beitrag ist spezifisch für Batson Challenges, daher ist es unklar, ob Sie nach einer anderen Situation suchen (Ihre Aktualisierungen für 1 und 2 sind im Kontext von Batson Challenges nicht sinnvoll).

Ich konnte finden einen verwandten Artikel finden (verfügbar unter dem Link):

Gastwirth, JL (2005). Fallkommentar: Statistische Tests für die Analyse von Daten zu Peremptory Challenges: Klärung des Beweisniveaus, das für die Feststellung eines offensichtlichen Diskriminierungsfalls in Johnson gegen Kalifornien erforderlich ist. Gesetz, Wahrscheinlichkeit und Risiko , 4 (3), 179-185.

Das gab den gleichen Vorschlag für die Verwendung der hypergeometrischen Verteilung. In meinem Blogbeitrag zeige ich, dass wenn Sie die Kategorien in zwei Gruppen einteilen, dies dem Fisher's Exact-Test entspricht.

kk=5k=6n im Jury-Pool. In meinem Blog-Beitrag führe ich nur Sensitivitätsanalysen für verschiedene Niveaus vonn und d (für einen anderen Fall), um Bereiche möglicher Prozentsätze anzugeben.

Wenn jemand Kenntnis von der Rechtsprechung erhält, die dies tatsächlich verwendet (oder etwas anderes als Bruchteile), wäre ich interessiert.

Andy W
quelle
1
Danke, Andy. (1) Mein Anwalt meint, es sei absolut akzeptabel / nützlich zu behaupten, dass C überfordert und A unterfordert war. (2) Sie sagen "welche Teststatistik". Ich finde das verwirrend - welche Teststatistik verwenden Sie, wenn Sie 0.07 mit hypergeometrischer Methode berechnen? Das heißt, die Wahrscheinlichkeit wird als Verhältnis der Verdachtsfälle zur Gesamtzahl der Fälle berechnet. Ebenso ist es genau das, was meine Analyse tut, außer, dass Verdachtsfälle enger definiert werden als bei Ihnen.
JD
@ JonathanMarch - Ich verwende keine Teststatistik. Dies ist die Wahrscheinlichkeit, dass 4 von 6 Klassen C (unter den anderen Bedingungen) zufällig gemäß der hypergeometrischen Verteilung ausgewählt werden. Ich verstehe die Motivation für Direktionstests, aber dies ist nicht der übliche T-Test-Fall. In diesem Fall haben Sie eine kontinuierliche Nullverteilung. Um also einen p-Wert zu erhalten, müssen Sie die Alternative als Bereich definieren. Dies ist bei einer PMF-Verteilung wie hier nicht unbedingt erforderlich.
Andy W
1
Wenn Sie möchten, können Sie die Wahrscheinlichkeit von hinzufügen k=5 und k=6 zum 0,07oben, aber das würde natürlich nur die Wahrscheinlichkeit erhöhen, die oben aufgeführt ist. Bei Ihren ursprünglichen Berechnungen wird davon ausgegangen, dass alle potenziellen Permutationen gleich wahrscheinlich sind. Was ich für vertretbar halte, aber ich halte es für realistischer, den Datenerzeugungsprozess als hypergeometrisch zu spezifizieren. Die Unterteilung in Ihre Frage finde ich intuitiv, aber ad-hoc sehe ich keinen Grund, sie in irgendeiner Weise als Wahrscheinlichkeit zu interpretieren.
Andy W
1
(+1) Die Teststatistik gibt die Anzahl der Herausforderungen für Gruppe C an. Dies ist gültig und relevant, da C a priori als das Rennen des Angeklagten identifiziert werden konnte . Andys Analyse ist durchaus angemessen (und ziemlich aussagekräftig), vorausgesetzt, dass 10 Peremptory Challenges im Voraus behoben wurden. Ich glaube (müsste aber überprüft werden), dass es eine gute Annäherung ist, vorausgesetzt, die Anzahl der peremptoristischen Herausforderungen ist zufällig. Die Logik ist einfach und süß: Wenn die Herausforderungen zufällig auf 30 Personen verteilt wurden, wie groß ist die Chance, dass Gruppe C vier oder mehr Herausforderungen erhalten hat? Die Antwort ist86/11317.6%.
whuber
1
Jonathan, zu deinem Vorteil werde ich es dir schwer machen (so wie es ein Oppositionsexperte tun würde). Ich glaube, Ihr Ansatz ist ungültig, weil Sie eine Ad-hoc- Statistik ohne theoretische Begründung verwenden. es scheint nur konstruiert zu sein, um einen kleinen p-Wert zu erzeugen. Andys Statistik kann auf festgelegten Null- und Alternativhypothesen basieren und mit dem Neyman-Pearson-Lemma begründet werden. Ihre Statistik scheint auf einer post-hoc- Prüfung der Ergebnisse zu beruhen und scheint keiner alternativen Hypothese zu entsprechen, die vor ( dh unabhängig) der voir dire aufgestellt worden wäre .
Whuber
0

Vergessen wir nicht das Problem der mehrfachen Tests. Stellen Sie sich 100 Strafverteidiger vor, die nach Rechtsmitteln suchen. Alle Ablehnungen der Geschworenen wurden durchgeführt, indem für jeden potenziellen Geschworenen Münzen geworfen oder Würfel gewürfelt wurden. Daher war keine der Ablehnungen rassistisch voreingenommen.

Jeder der 100 Anwälte führt jetzt jeden statistischen Test durch, auf den ihr euch alle einig seid. Etwa fünf von 100 lehnen die Nullhypothese "unbefangen" ab und haben Anlass zur Berufung.

Emil Friedman
quelle
IIUC, würden sie nach Gründen suchen, damit der Richter eine Prüfung der Gründe für jede einzelne Ablehnung anordnet. Wäre es tatsächlich ein Problem, wenn eine solche Untersuchung in 5 dieser 100 Fälle stattfinden würde?
JD