Jüri seçiminde önyargı?


14

Bir arkadaş, jüri seçiminin ırksal olarak önyargılı göründüğü bir ceza davasından sonra temyizde bulunan bir müşteriyi temsil etmektedir.

Jüri havuzu 4 ırksal grupta 30 kişiden oluşuyordu. Savcılık, bu kişilerin 10'unu havuzdan çıkarmak için kalıcı zorluklar kullandı. Her bir ırksal gruptaki kişi sayısı ve gerçek zorlukların sayısı sırasıyla:

A: 10, 1
B: 10, 4
C:  6, 4
D:  4, 1
total: 30 in pool, 10 challenges

Sanık ırksal grup C'den ve ırksal grup A ve D'den kurbanlardı, bu nedenle endişe a priori , C grubunun aşırı zorlanıp karşılanmadığı ve A ve D gruplarının zorlanıp karşılanmadığıdır . Yasal olarak (IIUC; IANAL), savunmanın ırksal önyargıyı kanıtlaması gerekmez , sadece verilerin önyargıyı gösterdiğini göstermek için, daha sonra her bir yargıyı ırksal olmayan bir şekilde açıklamak için kovuşturmaya yük getirir.

Aşağıdaki analiz yaklaşımında doğru mu? (Bence hesaplamalar iyi.):

NCr (30,10) = 30,045,015 farklı 10 havuz üyesinden oluşur. Bu farklı kümelerden 433.377 kümesinin hem (A ve D gruplarının en fazla 2 üyesi birleştirildi) hem de (C grubunun en az 4 üyesi içerdiğini) sayıyorum .

Bu nedenle, A ve D gruplarını C grubuna göre (10 zorluk setine dahil olmayan iyilik araçlarının) gözlenen görünür önyargı düzeyine ulaşma şansı bunların oranı, 433/30045 =% 1.44 olacaktır.

Böylece sıfır hipotezi (böyle bir önyargı yok)% 5 anlamlılık düzeyinde reddedilir.

Bu analiz metodolojik olarak doğruysa, akademik / profesyonel referans (örn. Wikipedia değil) dahil olmak üzere bir mahkemeye açıklamanın en kısa yolu ne olurdu? Tartışma basit görünse de, kişi mahkemeye maskaralıkların değil, doğru ve özlü bir şekilde nasıl kanıtlanabilir?


Güncelleme: Bu soru temyiz brifinginde üçüncül bir argüman olarak değerlendiriliyordu. Buradaki tartışmanın teknik karmaşıklığı (avukatın bakış açısından) ve yasal emsal yetersizliği göz önüne alındığında, avukat bunu gündeme getirmemeyi tercih etti, bu yüzden soru çoğunlukla teorik / eğitici.

Tek bir ayrıntıyı cevaplamak için: İnanıyorum ki, 10 olan zorluk sayısı önceden belirlendi.

Düşünceli ve zorlu cevapları ve yorumları inceledikten sonra (teşekkürler, hepsi!) Burada 4 ayrı sorun var gibi görünüyor. En azından benim için, bunları ayrı ayrı düşünmek (veya ayrılamaz olmadıklarını iddia etmek) en yararlı olacaktır.

1) Hem davalı hem de mağdurların, jüri havuzu zorluklarındaki yarışlarının dikkate alınması a priori mi? Temyiz savının amacı sadece makul endişe uyandırmak olacaktır, bu da kovuşturmanın her bir münferit zorluğun nedenini açıkladığı hukuki bir karara yol açabilir. Bu bana istatistiksel bir soru olarak değil, avukatın gündeme getirme ya da vermeme hakkına sahip olan sosyal / yasal bir soru gibi görünüyor.

2) Varsayım (1), alternatif bir hipotez seçimim (nitel olarak: sanığın ırkını paylaşan jüri üyelerine karşı önyargı, mağdurların ırklarını paylaşanların lehine) akla yatkın mı, yoksa kabul edilemez post hoc mu? Meslekten olmayan bakış açısına göre, bu en şaşırtıcı soru - evet, elbette biri gözlemlemezse onu yükseltmeyecekti! Anladığım kadarıyla sorun seçim önyargısıdır: kişinin testleri sadece bu jüri havuzunu değil, savunmanın bir tutarsızlık gözlemlemediği ve bu nedenle sorunu gündeme getirmediği tüm jüri havuzlarının evrenini de dikkate almalıdır. . Kişi buna nasıl hitap ediyor? (Örneğin, Andy'nin testi bunu nasıl ele alıyor?) Görünüşe göre, bu konuda yanlış olabilirim, ancak çoğu katılımcı potansiyel olarak post-hoc tarafından rahatsız edilmiyorSadece sanığın grubuna karşı önyargı için 1 kuyruklu testler. Kurban grupları için önyargıyı aynı anda test etmek metodolojik olarak nasıl farklı olurdu (1)?

3) Eğer biri (2) 'de belirtildiği gibi nitel bir alternatif hipotez seçimimi şart koşarsa, bunu test etmek için uygun istatistik nedir? Yanıtlar beni en çok şaşırttı. Çünkü önerdiğim oran, Andy'nin testinin daha basit "önyargıya karşı" alternatif hipotezi için biraz daha muhafazakar bir analogu gibi görünüyor (daha muhafazakar çünkü testim tüm vakaları daha da sayıyor sadece tam olarak gözlemlenen sayımda değil.)

Her iki test de aynı paydaya (aynı örnek evrenine) sahip basit sayma testleridir ve ilgili alternatif hipotezlere karşılık gelen bu örneklerin frekansına tam olarak karşılık gelen paylar vardır. Öyleyse, @whuber, Andy'nin sayım testim ile aynı derecede niçin doğru değil: "öngörülen sıfır [aynı] ve alternatif [tarif edildiği gibi] hipotezlere dayanabilir ve Neyman-Pearson lemma kullanılarak haklı gösterilebilir"?

4) Eğer kişi (2) ve (3) 'ü şart koşarsa, içtihat hukukunda şüpheci bir temyiz mahkemesini ikna edecek referanslar var mı? Kanıttan bugüne kadar, muhtemelen hayır. Ayrıca, bu temyiz aşamasında herhangi bir "bilirkişi" için fırsat yoktur, bu nedenle referanslar her şeydir.


Soru, cevapları ve yorumları inceledikten sonra güncellendi (eklenmiştir).
JD Mart

Mükemmel bir özet için teşekkürler! Nokta (3) 'e yanıt vermek için endişem, testinizin (doğru anlarsam) verilerin kendileri tarafından motive edilen alternatif bir hipotezi benimsemesidir. Dolayısıyla , sonuçların mümkün olduğunca güçlü görünmesi için bir posteriori inşa edilmiş gibi görünmektedir . Önsel olarak öngörülebilen, mümkün olan en geniş alternatif sınıfına dayanan ve Neyman-Pearson reddetme bölgesi ile yürütülen bir testin daha güçlü bir mantıksal temeli vardır ve yine de verileri gördükten sonra önerildiği eleştirisine daha az maruz kalır.
whuber

Teşekkürler, @whuber bu akla yatkın ve yardımcı bir eleştiri - başlangıçtan beri sorduğum şey çok. Ama bu (2) 'nin daha önce bile (3) başarısız olmasına neden olmaz mı? Eğer öyleyse, o zaman benim (3) hala cevaplanmamış gibi görünüyor - yani (2) şart koşmuşsa bu iyi bir istatistik olur mu?
JD Mart

Yanıtlar:


7

Standart istatistiksel araçları kullanarak sorunuzu yanıtlamaya nasıl yaklaşacağım aşağıda açıklanmıştır.

Jüri grup üyeliği göz önüne alındığında reddedilme olasılığı üzerine bir probit analizinin sonuçları aşağıdadır .

İlk olarak, veriler şöyle görünür. 30 grup gözlemi ve bir ikili reddedilen göstergesi var:

. tab group rejected 

           |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
         A |         9          1 |        10 
         B |         6          4 |        10 
         C |         2          4 |         6 
         D |         3          1 |         4 
-----------+----------------------+----------
     Total |        20         10 |        30 

İşte ortak testin yanı sıra bireysel marjinal etkiler:

. qui probit rejected ib2.group

. margins rb2.group

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
       group |
   (A vs B)  |          1        2.73     0.0986
   (C vs B)  |          1        1.17     0.2804
   (D vs B)  |          1        0.32     0.5731
      Joint  |          3        8.12     0.0436
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
       group |
   (A vs B)  |        -.3    .181659     -.6560451    .0560451
   (C vs B)  |   .2666667   .2470567     -.2175557     .750889
   (D vs B)  |       -.15   .2662236     -.6717886    .3717886
--------------------------------------------------------------

Burada A, C ve D grupları için reddedilme olasılığındaki farklılıkların B grubuna göre sıfır olduğuna dair bireysel hipotezleri test ediyoruz. Herkes B grubu kadar reddedilecek olsaydı, bunlar sıfır olurdu. Son çıktı parçası bize A ve D grubu jüri üyelerinin reddedilme olasılığının düşük olduğunu, C grubu jüri üyelerinin ise geri çevrilme olasılığının daha yüksek olduğunu söylüyor. Bu farklılıklar bireysel olarak istatistiksel olarak anlamlı değildir, ancak işaretler önyargı varsayımınıza uymaktadır.

Bununla birlikte, üç farkın sıfır olduğu eklem hipotezini reddedebiliriz .p=0.0436


Zeyilname:

A ve D gruplarını kurbanların ırklarını paylaştıkları için bir araya getirirsem, probit sonuçları güçlenir ve hoş bir simetriye sahip olur:

Contrasts of adjusted predictions
Model VCE    : OIM

Expression   : Pr(rejected), predict()

------------------------------------------------
             |         df        chi2     P>chi2
-------------+----------------------------------
      group2 |
 (A+D vs B)  |          1        2.02     0.1553
   (C vs B)  |          1        1.17     0.2804
      Joint  |          2        6.79     0.0336
------------------------------------------------

--------------------------------------------------------------
             |            Delta-method
             |   Contrast   Std. Err.     [95% Conf. Interval]
-------------+------------------------------------------------
      group2 |
 (A+D vs B)  |  -.2571429   .1809595      -.611817    .0975313
   (C vs B)  |   .2666667   .2470568     -.2175557     .750889
--------------------------------------------------------------

Bu aynı zamanda Fisher'in tam olarak uyumlu sonuçlar vermesine izin verir (yine de% 5'de olmasa da):

 RECODE of |       rejected
     group |         0          1 |     Total
-----------+----------------------+----------
       A+D |        12          2 |        14 
         B |         6          4 |        10 
         C |         2          4 |         6 
-----------+----------------------+----------
     Total |        20         10 |        30 

          Pearson chi2(2) =   5.4857   Pr = 0.064
           Fisher's exact =                 0.060

Teşekkürler, minnettarım! Buradaki metodolojik sorunları anlamama yardımcı olabilir misiniz? Özellikle, (1) a priori kaygısının özelliklerine rağmen yönlendirilmemiş karşılaştırma testleri (IIUC) ve (2) sadece birleştirici argümanlardan ziyade dağıtım varsayımları yapan bir test kullanma nedenleri?
JD Mart

Anladığımdan emin değilim (1). (2) için, farklı dağıtım varsayımları yapan bir logit modeliyle çok benzer sonuçlar elde ediyorum, bu yüzden bazı sağlamlık var. Daha az parametrik bir şey yapmak için yeterli veri yok, ancak bu alandaki kendi cehaletim olabilir.
Dimitriy V. Masterov

1
Re (1). Demek istediğim - testiniz 2 kuyrukluyken, a priori endişesi 1 kuyruğa izin verir mi?
JD Mart

1
Beni rahatsız eden bu analizin bir yönü, belirgin öneminin (yine de% 5 düzeyinde) sadece C grubunda meydana gelen zorluklardan değil, aynı zamanda A grubundaki zorlukların göreceli azlığından kaynaklanıyor olmasıdır. alakasız olmak: a priori'den şüphelenilir mi? C grubunun tercih edilen rolü (Davalı'nın grubunu eşleştirerek) açıktır, ancak diğer gruplar için veya hatta diğer gruplar arasındaki (varsayımsal olarak) bariz eşitsizliklerin tercih ettiği bir rol vardır - Davalı'nın iddiası üzerinde hiçbir etkisi yoktur. gruplarına göre onlara karşı ayrımcılık .
whuber

BTW, C grubu yerine B grubu analizi yaptınız gibi görünüyor
whuber

3

Ad hoc istatistiksel bir yöntem getirmenin mahkemeye katılmayacağını düşünürüm . "Standart uygulama" olan yöntemleri kullanmak daha iyidir. Aksi takdirde, muhtemelen yeni yöntemler geliştirmek için yeterliliklerinizi kanıtlayabilirsiniz.

Daha açık olmak gerekirse, yönteminizin Daubert standardını karşılayacağını düşünmüyorum. Ayrıca, yönteminizin kendi başına herhangi bir akademik referansı olduğundan şüpheliyim. Muhtemelen onu tanıtmak için bir istatistik uzmanı tanık kiralama yoluna gitmeniz gerekir. Kolayca karşı konabilir, diye düşünüyorum.

Buradaki temel soru muhtemelen: "Jüri mücadelesi ırksal gruplamadan bağımsız mıydı?"

χ2

> M <- as.table(cbind(c(9, 6, 2, 3), c(1, 4, 4, 1)))
> dimnames(M) <- list(Group=c("A", "B", "C", "D"), Challenged=c("No", "Yes"))
> M
     Challenged
Group No Yes
    A  9   1
    B  6   4
    C  2   4
    D  3   1

> chisq.test(M)

        Pearson's Chi-squared test

data:  M
X-squared = 5.775, df = 3, p-value = 0.1231

Warning message:
In chisq.test(M) : Chi-squared approximation may be incorrect

Fisher kesin testinin kullanılması benzer sonuçlar verir:

> fisher.test(M)

        Fisher's Exact Test for Count Data

data:  M
p-value = 0.1167
alternative hypothesis: two.sided

2×2

Benim yorumum ırksal önyargıyı savunacak çok fazla kanıt olmadığı yönündedir.


1
χ2

Teşekkürler @jvbraun, geçici yöntemlerin hareketsiz olmayla ilgili düşünceniz ikna edici görünüyor; sayma ve bölme benim için özellikle eksantrik görünmese de, diğerleri açıkça ikna edici bulmuyor!
JD Mart

Bu aslında marjinallerin sabitlendiği vakalardan biridir, bu nedenle Fisher'ın kesin testi birçokları için daha lezzetli olmalıdır. Daubert ile ilgili tartışmanızda, bir uzmanı çağırdığınızda , bir Daubert hareketine tabi olduktan sonra , biraz geriye doğru sahip olursunuz. (İronik bir şekilde, bazı istatistikler sunan meslekten olmayanların Kural 702'de dikte edilen bu tür değerlendirmelere tabi olmadığını ileri sürmüşlerdir.) IMO burada sunulan tüm argümanların iyi ifade edildiğini ve kabul edilemez olduğuna karar verilmesi pek mümkün olmayacaktır. Bu istatistiksel tekniklerin herhangi birinin bu özel durumlarda içtihadı olduğundan şüpheliyim.
Andy W

χ2

χ22/24/6

3

Daha önce benzer bir soru sordum (referans için burada tartıştığım özel durum). Savunma sadece Batson zorluklarında (ABD ceza hukukunu varsayarak) prima facia ayrımcılık vakası göstermelidir - bu nedenle hipotez testleri muhtemelen gerekenden daha büyük bir yüktür.

İçin böylece:

  • n=30
  • p=6
  • k=4
  • d=10

Whuber'ın önceki cevabı , bu özel sonucun hipergeometrik dağılım tarafından dikte edilmesi olasılığını verir :

(pk)(npdk)(nd)

Hangi Wolfram-Alfa diyor bu durumda eşittir:

(64)(306104)(3010)=7611310.07

Maalesef, sağladığım bağlantıların yanı sıra referansım yok - Wikipedia sayfasından hipergeometrik dağılım için uygun bir referans kazabileceğinizi düşünüyorum.

Bu, A ve D ırk gruplarının "yetersiz" olup olmadığı sorusunu göz ardı eder. Bunun için yasal bir iddiada bulunabileceğinizden şüpheliyim - eşit koruma maddesi üzerinde garip bir bükülme olurdu, Bu grup çok korumalı! , uçacağını sanmıyorum. (Yine de bir avukat değilim - bu yüzden bir tuz tanesi ile alın.)

Eğer varsa gerçekten bir hipotez testi istiyorum bu konuda gitmek nasıl emin değilim. select permütasyonunu üretebilir, bunu ırkçı grupların boşluğu altında, venere'deki oranlarına göre eşit olarak seçilen bir olasılık verebilir ve daha sonra test istatistiklerinizin sıfırın altındaki dağılımını hesaplayabilirsiniz. Test istatistiği ne kadar tatmin edici olsa da tam olarak emin değilim, gerçekten ilgili soruya cevap vermiyor. (Kendi test istatistiğini oluşturman iyi mi - bilmiyorum?) χ2(3010)χ2


Bir blog gönderisindeki bazı düşüncelerimi güncelledim . Yayımım Batson Mücadelelerine özgüdür, bu nedenle başka bir durum arayıp bulmamanız net değildir (1 ve 2 için güncellemeleriniz Batson Mücadeleleri bağlamında anlamlı değildir.)

İlgili bir makaleyi bulabildim (bağlantıda tam olarak mevcut):

Gastwirth, JL (2005). Vaka yorumu: kalıcı zorluklar hakkındaki verilerin analizi için istatistiksel testler: Johnson / California'da prima facie ayrımcılık vakası oluşturmak için gereken kanıt standardının açıklığa kavuşturulması. Hukuk, Olasılık ve Risk , 4 (3), 179-185.

Bu, hipergeometrik dağılımı kullanmak için aynı öneriyi verdi. Blog yazımda kategorileri iki gruba daraltırsanız Fisher's Exact testine nasıl eşdeğer olduğunu göstereceğim.

kk=5k=6nnd

Birisi bunu (veya kesirlerin dışında herhangi bir şeyi) kullanan içtihatların farkına varırsa ilgilenirim.


1
Teşekkürler Andy. (1) Avukat arkadaşım, C'nin aşırı ve A'nın zorlandığını iddia etmek için tamamen kabul edilebilir / yararlı olduğunu düşünüyor. (2) "Ne test istatistiği" diyorsunuz. Kafa karıştırıcı buluyorum - hipergeometrik kullanarak 0.07 hesaplarken hangi test istatistiklerini kullanıyorsunuz? Bu, şüpheli davaların toplam davalara oranı olarak olasılığı hesaplar. Aynı şekilde, şüpheli vakaları sizden daha dar olarak tanımlamak dışında, analizimin yaptığı da tam olarak budur.
JD Mart

@JonathanMarch - Test istatistiği kullanmıyorum. Bu, hipergeometrik dağılıma göre 6 sınıf C'nin 4'ünün (diğer koşullar göz önüne alındığında) rastgele seçilme olasılığıdır . Yönlü testlerin motivasyonunu anlıyorum, ancak bu normal t-testi vakası değil. Bu durumda sürekli bir boş dağıtımınız olur, bu nedenle p değeri vermek için alternatifi bir alan olarak tanımlamanız gerekir . Bunu burada olduğu gibi bir PMF dağılımı ile örtük bir gereklilik yoktur.
Andy W

1
k=5k=60.07

1
86/11317.6%

1
Jonathan, yararın için sana zor zamanlar vereceğim (tıpkı bir muhalefet uzmanının yaptığı gibi). Teorik gerekçe olmadan geçici bir istatistik kullandığınız için yaklaşımınızın geçersiz olduğuna inanıyorum ; sadece küçük bir p değeri üretmek için yapılmış gibi görünüyor. Andy istatistiği, öngörülen sıfır ve alternatif hipotezlere dayanabilir ve Neyman-Pearson lemması kullanılarak haklı çıkarılabilir. İstatistiğiniz sonuçların post hoc incelemesine dayanıyor gibi görünüyor ve voir direğinden önce (yani bağımsız olarak) iddia edilecek herhangi bir alternatif hipoteze karşılık gelmiyor gibi görünüyor .
whuber

0

Çoklu test sorununu unutmayalım. Her biri temyiz yolunu arayan 100 savunma avukatı hayal edin. Jüri retlerinin tamamı, her muhtemel jüri için bozuk para veya zar atmak suretiyle gerçekleştirildi. Bu nedenle, reddetmelerin hiçbiri ırksal olarak taraflı değildi.

100 avukatın her biri şimdi hepinizin üzerinde anlaştığı istatistiksel testi yapar. Kabaca bu 100 kişiden beşi "tarafsız" sıfır hipotezini reddedecek ve temyiz gerekçesine sahip olacaktır.


IIUC, hakimin her bir bireysel reddin nedenlerinin incelenmesini emretmesi için zemin ararlar. Bu 100 olgunun 5'inde böyle bir inceleme yapılması gerçekten sorun olur mu?
JD Mart
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.