Kısa cevap:
Temel olarak, 1000'den 600'ü 10'dan altıya sahip olmak daha ikna edicidir, çünkü eşit tercihler verildiğinde, 10'dan 6'sının rastgele tesadüfen oluşması çok daha muhtemeldir.
Farz edelim - portakal ve elmayı tercih eden oranın gerçekte eşit olduğu (her biri% 50). Buna boş hipotez de. Bu eşit olasılıklar göz önüne alındığında, iki sonucun olasılığı:
- 10 kişiden oluşan bir örnek verildiğinde , rastgele portakal tercih eden 6 kişi veya daha fazla kişiden örnek alma şansı% 38'dir (ki bu pek de mümkün değildir).
- 1000 kişiden oluşan bir örneklemle milyarda 1 veya daha az kişi olma ihtimalinin 600'den fazla olması veya 1000 kişiden fazlasının portakalları tercih etmesi.
(Basit olması için sınırsız sayıda örnek alabileceği sonsuz bir popülasyon olduğunu varsayıyorum).
Basit bir türev
Bu sonucu elde etmenin bir yolu, örneklerimizde insanların bir araya gelebilecekleri potansiyel yolları listelemektir:
On kişi için kolay:
Elma veya portakal için eşit tercihleri olan sonsuz bir insan popülasyonundan rastgele 10 kişinin örneklerini almayı düşünün. Eşit tercihlerle, 10 kişinin tüm potansiyel kombinasyonlarını kolayca listeleyebilirsiniz:
İşte tam listesi.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r, sonuçların sayısıdır (portakalları tercih eden insanlar), C, birçok insanın portakalları tercih etmesinin muhtemel yollarının sayısıdır ve p, birçok insanın portakalları tercih etmesinin sonuçta ortaya çıkan olasılıklarıdır.
(p sadece toplam C kombinasyonuna bölünen C'dir. Bu iki tercihin toplamının düzenlenmesi için 1024 yol bulunduğunu unutmayın (2'ye 10'a kadar).
- Örneğin, 10 kişi için (r = 10) sadece bir yol (bir örnek) var. Aynısı elmaları tercih eden herkes için de geçerlidir (r = 0).
- Dokuzunun portakalları tercih etmesiyle sonuçlanan 10 farklı kombinasyon vardır. (Bir farklı kişi her örnekte elmaları tercih eder).
- 2 kişinin elma, vb. Tercih ettiği 45 örnek (kombinasyon) vardır.
(Hakkında genel biz konuşmasında C r n sonuçların kombinasyonları r bir örnekten n insanlar. Bu sayıları doğrulamak için kullanabileceğiniz online hesap makineleri vardır.)
Bu liste bize sadece bölme kullanarak yukarıdaki olasılıkları vermemizi sağlar. Portakalı tercih eden örnekte 6 kişiyi alma şansı% 21'dir (kombinasyonların 1024'ü 210). Örneğimize altı veya daha fazla kişi girme şansı% 38'dir (altı veya daha fazla kişiyle tüm örneklerin toplamı veya 1024 kombinasyonun 386'sı).
Grafiksel olarak, olasılıklar şöyle görünür:
Daha büyük sayılarla, potansiyel kombinasyonların sayısı hızla artar.
Sadece 20 kişiden oluşan bir örnek için, hepsi eşit olasılıkla 1,048,576 olası örnek bulunmaktadır. (Not: Sadece aşağıdaki her ikinci kombinasyonu gösterdim).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
20 kişinin hepsinin portakalı tercih ettiği tek bir örnek var. Karışık sonuçlar içeren kombinasyonlar çok daha muhtemeldir, çünkü numunelerdeki insanların birleştirilebilmesi için daha birçok yol vardır.
Önyargılı örnekler çok düşük bir ihtimaldir, çünkü bu örneklerle sonuçlanabilecek daha az insan kombinasyonu vardır:
Her örnekte sadece 20 kişi olması durumunda, örneklemimizde portakal tercih eden% 60 veya daha fazla (12 veya daha fazla) kişinin kümülatif olasılığı sadece% 25'e düşer.
Olasılık dağılımının daha ince ve daha uzun olduğu görülebilir:
1000 kişiyle sayılar çok fazla
Yukarıdaki örnekleri daha büyük örneklere uzatabiliriz (ancak tüm kombinasyonları listeleyebilmesi için rakamlar çok hızlı büyüyor), bunun yerine R'deki olasılıkları hesapladım:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
1000 kişiden 600 veya daha fazlasına sahip olma kümülatif olasılığı sadece portakalları tercih eder 1.364232e-10.
Olasılık dağılımı artık merkez çevresinde daha yoğunlaşıyor:
[
(Örneğin, R kullanımında dbinom(600, 1000, prob=0.5)
4.633908e-11'e eşit olan portakalları tercih eden 1000 kişiden tam olarak 600'ünün olasılığını hesaplamak için ve 600 veya daha fazla kişinin olasılığı 1-pbinom(599, 1000, prob=0.5)
1.364232e-10'a (milyarda 1'den az) eşittir.