Bir insan listesindeki n insanın, y insan listesinden rastgele bir x insan seçiminde olma olasılığı nedir?


10

Eğer değiştirmeden 363 kişilik bir havuzdan 232 kişi seçersem, bu seçimdeki 12 belirli kişiden oluşan bir listeden 2'sinin olasılığı nedir?

Bu, 232 spot için 363 katılımcının olduğu ultra yarış için rastgele bir beraberlik. Seçimin belirli bir 12 kişilik gruba karşı önyargılı olup olmadığı konusunda bir tartışma var.

Bunu hesaplamaya yönelik ilk denemem 232 olası 363 seçim seçildiğiydi. On iki listeden herhangi bir kişinin kombinasyon sayısı 1'i seçin 12 + 2'yi seçin 12 + ... + 11'i seçin 12 + 12'yi seçin 12 Böylece 1'i 12 + 2'yi seçin 12 .... / 232'yi seçin 363 Sonuçta çok düşük bir sayı olur ki bu da çok düşüktür.

Bunu nasıl hesaplayabilirim?


1
İki teknik nokta. İlk olarak, şimdi sonuç bilindiği gibi bir olasılıktan ziyade bir olasılıkla uğraşıyorsunuz. İkincisi, bir sonucun olması göz önüne alındığında, teorik olasılığın ne olduğu önemli değil. Seçim için kullanılan yönteme yaklaşmanın daha iyi olacağını düşünüyorum: seçimler nasıl seçildi? Sonucun doğruluğunu değil, yöntemin doğruluğunu kanıtlamanız gerekir.
Michelle

1
Bunu, olasılık olasılıklarını tahmin etmek amacıyla, bir olasılık olarak görüyoruz Michelle. Burada böyle görünmüyor.
whuber

Şikayet eden 12 kişi rastgele seçilmediğinden, hipergeometrik RV'nin basit hesaplamasını kullanırken dikkatli olmalısınız. Onlar çünkü onlar şikayet ediyorlar değil seçildi.
adam

Yanıtlar:


10

36323212

mip(i,m)p(i,0)=0i>0p(0,0)=1p(i1,m1)i1363m+1i(12i+1)/(363m+1)p(i,m1)im1(363m+112+i)/(363m+1). Bu nedenle, temel olasılık aksiyomlarını kullanarak (karşılıklı olarak, iki ayrı özel durum ekleme şansı ve koşullu şanslar çoğalır),

p(i,m)=p(i1,m1)(12i+1)+p(i,m1)(363m+112+i)363m+1.

p(i,m)0i120m232p(2,232)0.000849884p(0,232)+p(1,232)+p(2,232)0.000934314

Bir çift kontrol olarak, bu egzersizi 1.000.000 kez bir bilgisayarla yaptım. Bu deneylerin 932 = 0.000932'sinde 2 veya daha az kırmızı bilet gözlenmiştir. Bu, hesaplanan sonuca son derece yakındır, çünkü beklenen 934.3 değerindeki örnekleme dalgalanması yaklaşık 30'dur (yukarı veya aşağı). Simülasyon R'de nasıl yapılır:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
             sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

Bu kez, deneyler rastgele olduğu için sonuçlar biraz değişti: milyon denemenin 948'inde iki veya daha az kırmızı bilet gözlendi. Bu hala teorik sonuçla tutarlıdır.)

Sonuç, 232 biletin iki veya daha azının kırmızı olması pek olası değildir. Gerçekten de 363 kişiden 232'lik bir örneğiniz varsa, bu sonuç, kavanoz içi biletler modelinin, numunenin nasıl elde edildiğine dair doğru bir açıklama olmadığının güçlü bir göstergesidir . Alternatif açıklamalar arasında (a) kırmızı biletlerin kavanozdan alınması daha zor hale getirildi (onlara karşı bir "önyargı") ve (b) örnek gözlendikten sonra biletlerin renklendirildiği ( hoc sonrası veri gözetleme, değil ) herhangi bir önyargı gösterir.

Eylemdeki (b) açıklamasına bir örnek, kötü şöhretli cinayet davası için bir jüri havuzu olacaktır. Varsayalım ki 363 kişi içeriyor. Bu havuzdan mahkeme, bunlardan 232'si ile röportaj yaptı. Hırslı bir gazete muhabiri havuzdaki herkesin vitaminini titizlikle inceler ve 363'ten 12'sinin akvaryum balığı meraklıları olduğunu fark eder, ancak bunlardan sadece ikisi ile röportaj yapılmıştı. Mahkeme akvaryum balığı meraklılarına karşı önyargılı mı? Muhtemelen değil.


NB Simülasyonda, işaretlenen ilk 12 "bilet" olması önemli değildir, çünkü tüm örnekleme değiştirilmeden (üzerinden sample) rastgele yapılır . Aslında, her yinelemede, her sampleçekilişinde 232 adet çekilmeden önce biletleri iyice karıştırır.
whuber

2
İyilik - aslında beklediğim sonuç bu değildi. Ayrıntılı çalışmalarınız ve iyi açıklamalarınız için teşekkür ederiz. (Merakla, aslında R'nin ilk geliştirildiği Auckland Üniversitesi'nde bazı istatistik eğitimi aldım)
Sarge

10

@whuber kapsamlı bir açıklama yaptı, sadece bu senaryoya karşılık gelen standart bir istatistiksel dağılım olduğunu belirtmek istiyorum: hipergeometrik dağılım. Böylece, bu tür olasılıkları doğrudan R'de elde edebilirsiniz:

Seçilen 12 kişiden 2'sinde olasılık:

   > dhyper(2, 12, 363-12, 232)
   [1] 0.0008498838

Seçilen 12 kişiden 2 veya daha az olasılığı:

   > phyper(2, 12, 363-12, 232)
   [1] 0.000934314

+1 Teşekkürler. Bu bağlantıdan bahsetmeliydim. Hipergeometrik dağılım klasik olarak örnekleme-yeniden örnekleme deneylerinde görülür. 12 belirli kişi (benim "kırmızı bilet") yakalanmış, işaretlenmiş ve havuza geri atılan balık gibidir; 232 örneği daha sonra yakalanan balık setine benzer. Hipergeometrik dağılım, yeniden yakalanan balıkların frekanslarını tanımlar.
whuber

0

Grup rastgele seçilmediğinden ( "12 balık çekilmeden önce kırmızıya boyanır" ) , oranlar basit hipergeometrik dağılım ile hesaplandığından çok daha yüksektir .

Sorunun açıklamasından, çekilişte bir sahtekarlık testi yapıyoruz. 12 kişilik belirli bir grup sadece 2 tanesinin seçildiğinden şikayet ederken, beklenen sayı 232/363 ~ 2/3 = 8 idi.

Gerçekten hesaplamamız gereken şey, " 12 büyüklüğündeki hiçbir grupta sadece 2 üye seçilmeyecek" olasılıklarıdır . En az bir grubun 2 veya daha az olması (bu nedenle çekilişin adaletinden şikayetçi olma olasılığı) çok daha yüksektir.

Bu simülasyonu çalıştırdığımda ve 30 (= 360/12) gruptan hiçbirinin 2 veya daha az seçime sahip olmadığını denediğimde , zamanların yaklaşık % 2.3'ünü alıyorum . 1:42 düşük ama imkansız değil.

Yine de çekilişin prosedürünü kontrol etmelisiniz çünkü belirli bir grup insana karşı önyargılı olabilir. Bir araya gelmiş ve daha az olasılıkla (örneğin ilk veya son sayılar) bir çekiliş aralığı veya çekilişin prosedürüne bağlı olan herhangi bir bağımlı değişken almış olabilirler. Ancak prosedürde herhangi bir kusur bulamazsanız, grup için sadece kötü şansın 1:42 oranına geri dönebilirsiniz.


İyi bir nokta, AMA (a) şüphesiz 12 olası her grubun maddeyle yeterince benzerliği yoktur ve (b) maddeye yeterince benzerliği olan tüm grupların tam olarak 12 üyesi yoktur.
zbicyclist

@zbicyclist, hesaplamanın doğru olduğunu iddia etmiyorum. (Suistimalin tespiti ile hukuk alanında olduğumuz gibi), cezanın suçlu olmadığı konusunda makul bir şüphe vermek istedim .
Guy
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.