Palantir'in Asya'daki ayrımcılık davası: olasılıklar nasıl hesaplandı?


14

Palantir'in Çalışma Departmanının onları Asyalılara karşı ayrımcılıkla suçladığı dava hakkındaki bu makaleyi okudum . Herkes bu olasılık tahminlerini nereden aldıklarını biliyor mu?

(A) maddesinde 1/741 elde edemiyorum.

(a) KG Mühendisi pozisyonu için, yaklaşık% 77'si Asyalı olan 730'dan fazla nitelikli başvuru havuzundan Palantir altı Asya dışı başvuru sahibi ve sadece bir Asyalı başvuru sahibi işe aldı. OFCCP tarafından hesaplanan olumsuz etki üç standart sapmayı aşıyor. Bu sonucun şansa göre gerçekleşme olasılığı yaklaşık 741'de birdir.

(b) Yazılım Mühendisi pozisyonu için, yaklaşık% 85'i Asyalı olan 1.160'dan fazla nitelikli başvuru havuzundan Palantir, 14 Asyalı olmayan başvuru sahibi ve sadece 11 Asyalı başvuru aldı. OFCCP tarafından hesaplanan olumsuz etki beş standart sapmayı aşıyor. Bu sonucun tesadüfen gerçekleşme olasılığı yaklaşık 3,4 milyonda birdir.

(c) KG Mühendisi Stajyeri pozisyonu için, yaklaşık% 73'ü Asyalı olan 130'dan fazla nitelikli başvuru havuzundan Palantir 17 Asyalı olmayan başvuru sahibi ve sadece dört Asyalı başvuru aldı. OFCCP tarafından hesaplanan olumsuz etki altı standart sapmayı aşıyor. Bu sonucun şansa göre meydana gelme olasılığı yaklaşık milyarda birdir.


1/741 dışında bir şey elde etmek için yaptığınız hesaplamayı gösterebilir misiniz?
Ben Bolker

1
Tahminim tek taraflıydı - eğer iki taraflı bir hipotez testi gibi yapmak için iki katına çıkarırsanız, bu 1/741 sayısına oldukça yaklaşırsınız.
Gregor Thomas

3
Katlanmanın bu durumda bir anlam ifade etmediğine katılıyorum, sadece ne yapılabileceğini tahmin etmeye çalışıyordum. Soru değil doğru cevabın ne ama onlar bu tahmine ulaşmak nasıl oldu .
Gregor Thomas

1
Birisi PDF ekran görüntüsünü bir metin teklifine dönüştürürse harika olurdu ...
amo diyor Reinstate Monica

Yanıtlar:


20

Bunu ayrımcılık davalarıyla ilgili deneyimlerden tersine mühendislik yapacağım. "741'de bir" vb . Değerlerin nereden geldiğini kesinlikle belirleyebilirim . Ancak, çeviri sırasında o kadar çok bilgi kayboldu ki, yeniden yapılanmamın geri kalanı insanların mahkeme salonu ortamlarında nasıl istatistik yaptığını görmeye dayanıyor. Sadece bazı ayrıntıları tahmin edebilirim.


Ayrımcılıkla mücadele yasalarının 1960'larda (Başlık VI) geçtiği zamandan beri, ABD'deki mahkemeler p değerlerine bakmayı ve bunları ve eşikleriyle karşılaştırmayı öğrendiler . Ayrıca, tipik olarak "standart sapmalar" olarak adlandırılan standart etkilere bakmayı ve bunları "iki ila üç standart sapma" eşiği ile karşılaştırmayı da öğrendiler. Bir kurmak için ilk bakışta bir ayrımcılık takım için durum davacılar genellikle bu eşikleri aşan bir "yıkıcı etkisi" gösteren bir istatistiksel hesaplama girişimi. Böyle bir hesaplama desteklenemiyorsa, vaka genellikle ilerleyemez.0.050.01

Davacılar için istatistik uzmanları genellikle sonuçlarını bu tanıdık terimlerle ifade etmeye çalışırlar. Bazı uzmanlar, sıfır kararın "olumsuz etki" göstermediği, istihdam kararlarının tamamen rastgele ve çalışanların diğer özellikleri tarafından yönetilmediğini varsayarak istatistiksel bir test yürütmektedir. (İster tek kuyruklu ister iki kuyruklu bir alternatif olsun, uzman ve koşullara bağlı olabilir.) Daha sonra bu testin p değerini standart Normal dağılımına başvurarak bir dizi "standart sapmaya" dönüştürür. - standart Normal, orijinal testle ilgisiz olsa bile. Bu dolambaçlı yoldan, sonuçlarını yargıya açık bir şekilde iletmeyi umuyorlar.

Beklenmedik durum tablolarında özetlenebilecek veriler için tercih edilen test, Fisher's Exact Testidir. Adında "Tam" ın ortaya çıkması davacıları özellikle sevindiricidir, çünkü hatasız (ne olursa olsun!) Yapılan istatistiksel bir belirlemeyi ifade eder .

İşte burada, Çalışma Bakanlığı'nın hesaplamalarının benim (spekülatif rekonstrüksiyonu).

  1. Fisher'ın Kesin Testi'ni ya da onun gibi bir şeyi çalıştırdılar ( randomizasyon yoluyla belirlenen p değerine sahip bir testi gibi). Bu test, Matthew Gunn'ın cevabında tarif edildiği gibi hipergeometrik bir dağılım olduğunu varsayar. (Bu şikayete katılan az sayıda insan için hipergeometrik dağılım, Normal dağılım ile iyi bir şekilde yakın değildir.)χ2

  2. P değerini normal Z skoruna ("standart sapma sayısı") dönüştürdüler.

  3. Bunlar yuvarlak , beş standart sapmaları aşıyor " " üç standart sapmaları aşıyor"" ve "altı standart sapmaları aşıyor": en yakın tam sayıya Z skoru. (Bu Z-skorları bazı yuvarlak Çünkü up daha fazla standart sapmalar, ben "aşıyor" haklı olamaz; Tek yapabileceğim bunu alıntı budur.)

  4. Şikayette bu integral Z skorları tekrar p değerlerine dönüştürüldü! Yine standart Normal dağılım kullanıldı.

  5. Bu p-değerleri (muhtemelen yanıltıcı bir şekilde) “bu sonucun şansa göre meydana gelme olasılığı” olarak tanımlanmaktadır.

Bu spekülasyonu desteklemek için, üç örnekte Fisher's Exact Test'in p değerlerinin yaklaşık , ve . Bu varsayarak havuzları dayanmaktadır , ve "daha" karşılık gelen , ve , sırasıyla. Bu sayılar Z = , ve normal puanlarına sahiptir, ki bunlar yuvarlandığında üç, beş ve altı standart sapmadır, tam olarak şikayette görülür. (tek kuyruklu) normal p değerlerine karşılık1/12801/5650001/58000000730116013073011601303.164.645.521/741, ve : tam olarak şikayette belirtilen değerler.1/35000001/1000000000


İşte Rbu hesaplamaları yapmak için kullanılan bazı kod.

f <- function(total, percent.asian, hired.asian, hired.non.asian) {
  asian <- round(percent.asian/100 * total)
  non.asian <- total-asian
  x <- matrix(c(asian-hired.asian, non.asian-hired.non.asian, hired.asian, hired.non.asian),
              nrow = 2,
              dimnames=list(Race=c("Asian", "non-Asian"),
                            Status=c("Not hired", "Hired")))
  s <- fisher.test(x)
  s$p.value
}
1/pnorm(round(qnorm(f(730, 77, 1, 6))))
1/pnorm(round(qnorm(f(1160, 85, 11, 14))))
1/pnorm(round(qnorm(f(130, 73, 4, 17))))

6
Wow, bunun yapılabileceğini tahmin edemedim. Bu korkutucu.
Aksakal

7
(+1) CSI: İstatistikler.
Firebug

5

Hipergeometrik dağılımı kullanarak pvals nasıl doğru hesaplanır:

Çizim başarılarını ile kümesinden değiştirme olmadan denemeler ortasında başarılara toplam öğeler takip edecek hipergeometrik dağılımı .knKN

Tek taraflı bir test için, MATLAB'da, pval = hygecdf(k, N, K, n);veya pval = hygecdf(1, 730, 562, 7).0007839 olan bu durumda arayabilirsiniz.

Ortalama ve standart sapma şu şekilde verilir:

μ=nKNs=nKNNKNNnN1
Böylece ortalama dışında -3.957 standart sapma var.

P-değerlerini (örn. Hipergeometrik cdf, testi, z-testi) çoğaltmak için çeşitli şeyler denedim , ancak tam bir eşleşme alamıyorum. (Güncelleme: WHuber'ın cevabı tam bir eşleşme üreten bir algoritmaya sahip ... korkutucu şeyler!)χ2

OFCCP'nin kullanabileceği formülleri ararken, gördüğüm bu site belki de yardımcı olabilir: http://www.hr-software.net/EmploymentStatistics/DisparateImpact.htm

Bazı hesaplamaların özeti:

Number and methodPart APart BPart CPVal from hypergeometric CDF7.839e-041.77e-061.72e-08χ2 stat15.6833.6837.16χ2 pval7.49e-056.47e-091.09e-09Pval from above document.001352.94e-071.00e-09

χ2(expectedactual)2expected


1
Aynı sonucu aldım ama farklı. 1/741
Aksakal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.