Aynı sınıfta aynı ada sahip beş çocuğun olasılığı


10

Bebek isimlendirme forumlarında, müstakbel ebeveynler Jennifer Korkularının bazı versiyonlarını her zaman tekrarlarlar: "Çocuğumun sınıfında 5 adından biri olmasını istemiyorum." Şey, artık hiçbir isim bu tür popülerliğe daha fazla yaklaşmıyor ve Jennifer çılgınlığının yüksekliğinde bile, bir sınıfta beş tane alamadınız. Bu ebeveynler için, böyle bir isim tekrarının tesadüfünün ne kadar olası olmadığı konusunda bir çeşit cevap istiyorum.

Sosyal Güvenlik İdaresi'nin kapsamlı bebek ismi verilerini ( https://www.ssa.gov/oact/babynames/limits.html ) kullanarak, biri ABD'de beş yaşında bir ilkokul sınıfının şansını nasıl anlayacağımı söyleyebilir aynı adı taşıyan çocuklar? (Basitlik için, "aynı isim" ile aynı yazım demek ve "okul sınıfı" demek istediğim tüm çocuklar aynı yıl doğdu.) Bir sınıf boyutu belirtmiyorum, ama kesinlikle 4'ten büyük olmalı . :-)


1
Bebek isimleri hakkındaki gönderiler Andrew Gelman'ın blogunda tekrar eden bir temadır. Kendi sitesinde bulduğum gönderilerin hiçbirinde sizin özel sorunuzu tartışmıyor. Cevap almak için daha fazla şansın olabileceği bir "bebek ismi blogu" na bağlantı veriyor. andrewgelman.com/2005/09/07/baby_name_blog
Mike Hunter

Bu tür sayım verilerinden çıkarılan ilk ilk yirmi isim, başarı olasılıkları ile multinom dağılım kullanarak bir şeyler dize düşünüyorum .
Antoni Parellada

SSA , bir isim ile doğan çocuk sayısı hakkında veri sağlıyor mu? Sadece bazı yararlı bilgileri alıkoyan saflar hakkında bilgi buluyorum .
Sycorax: Reinstate Monica

6
@AntoniParellada Durumun gerçekliğinin daha da incelikli olduğunu düşünüyorum: ABD okul sistemi gelir ve ırk tarafından yüksek oranda ayrıldığından, ulusal istatistiklerin gerçek sınıflarla zayıf bir yazışması olacağını düşünüyorum.
Sycorax, Reinstate Monica'ya

3
Ben (küçük) bir ilkokulda öğrenciyken, çok küçük bir sınıfta üç Johns'umuz vardı (bence kız ve erkeklerin toplamı sadece 14 idi). Bir yıl, bir tam boy sınıf yapmak için yukarıdaki yılla birleştik ... ve dördüncü bir John aldık. John o zamanlar oldukça yaygındı ama o kadar yaygın değildi . (Orijinal sayı açısından, üçü neredeyse beş kadar can sıkıcı olurdu). Bir şansı özellikle adı birçok kez çok düşük olacağını çoğaltılan ancak şans bazı isim birden çok kez çok daha yüksek olacaktır görünür.
Glen_b

Yanıtlar:


9

Tüm veriler burada bulunabilir . Tablodaki her bir değer, o konumdan ve doğum yılından itibaren 25 kişilik bir örnek verildiğinde, 5 tanesi bir adı paylaşma olasılığını temsil eder.

Yöntem : Belirli bir 25 kişilik sınıfın bir adı paylaşan 5 kişiye sahip olma olasılığını bulmak için her isimde Binomial PDF'yi kullandım :

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kids share name)= namesk=5n(nk)pik(1pi)nk

Örneğin, toplam 4.000.000 çocuk ve 21.393 Emily's varsa, o zaman 25 öğrenciyle herhangi bir sınıfta 5 Emily'nin olması olasılığı Binomial (25, 5, 0.0053) = 0.0000002'dir. Tüm isimler üzerinde toplanmak kesin bir cevap vermez, çünkü İçerme / Dışlama Prensibi ile isimleri paylaşan 5 kişilik birden fazla gruba sahip olma olasılığını da hesaba katmalıyız. Ancak, bu olasılıklar neredeyse tüm pratik amaçlar için neredeyse sıfır olduğundan, bunların ihmal edilebilir olduklarını ve dolayısıyla .P(Ai)P(Ai)

Güncelleme: Birçok insanın işaret ettiği gibi, zaman içinde ve devletler arasında önemli farklılıklar vardır. Ben de aynı programı, STATE BY STATE bazında ve zamanla çalıştırdım. İşte sonuçlar (ülke çapında olasılık kırmızı, bireysel durumlar siyahtır):

resim açıklamasını buraya girin

İlginç bir şekilde, Vermont (benim devletim), son birkaç yıldır bunun olması için sürekli olarak en olası yerlerden biri olmuştur.


3
Bu sayıları nasıl elde ettiğinizi açıklama şansınız var mı? Çok fazla aptallaştırmanıza gerek yok - matematikte lisans derecem var ve nereye bakacağımı biliyorum - ama gerçekten olasılıklara yol açan akıl yürütmeyi bilmek istiyorum (bunun yerine) korkutucu iç çekişler).
JPmiaou

1
Bu isimler verilmiştir varsayar rastgele ile aynı olasılıklar , basitçe budur doğru değil . Ayrıca gerçek yaşam deneyimi, aynı isimlere sahip çocuklarla 200'de 1'den çok daha fazla sınıf olduğunu gösteriyor !
Tim

4
Biraz farklı sonuçlar alıyorum, ama yakınlar. Bu tartışmaya değmez, çünkü sonuçlardaki coğrafi ve zamansal değişim çok büyüktür. Cevap, 1910'dan beri iki büyüklük sırası ile değişti ve devletler arasında bir büyüklük sırasına göre değişti. ABD'nin tamamından neredeyse hiç ilkokul sınıfı alınmadığından, ulusal isimler listesinden rastgele seçim modeli uygun değildir.
whuber

2
(1) İndirdiğiniz ulusal dosyadaki diğer yıllara bakın. (2) Aynı sitede bulunan durum dosyalarına bakın.
whuber

2
Evet, zaman içindeki olasılıkların grafiği dramatik: 1980'e kadar dik bir düşüş başladı. Fakat devletin varyasyonu gerçekten beklendiği gibi çok büyük: isimler coğrafi olarak değişiyor ve etnik köken, gelir ve diğer demografik faktörlere göre güçlü bir şekilde kümeleniyorlar. (Eyalet ve zaman değişimi, BTW ile ilgili kapsamlı araştırmanız için +1).
whuber

0

lütfen Python2 için aşağıdaki Python betiğine bakın.

Cevap David C'nin cevabından esinlenmiştir.

Benim son cevap Jacob verilerine göre en olası isim olmakla beraber bir sınıfta en az beş Jacobs bulma olasılığı olurdu https://www.ssa.gov/oact/babynames/limits.html Ulusal Verileri" "2006'dan itibaren.

Olasılık, binom dağılımına göre hesaplanır; Jacob-Olasılık, başarı olasılığıdır.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Maks. 25 üzerinden aynı ada sahip en az beş çocuk olasılığı: Jacob adı için 4.7e-07

Maks. Tabii ki Jacob adı için 50: 1.6e-05 üzerinden aynı adı taşıyan en az beş çocuk için olasılık.

Maks. Tabii ki 100: 0.00045'ten aynı isme sahip en az beş çocuk için olasılık Jacob.

David C ile aynı sonuç 10 faktör. Teşekkürler. (Cevabım tüm isimleri toplamıyor, tartışılmalıdır)


Bu cevap, bazı isimlerin sınıfta beş veya daha fazla kez ortaya çıkma şansı sorununu ele almıyor gibi görünmektedir .
whuber

1
@feinmann Tüm isimlerden toplamı almanın uygun olduğuna inanıyorum, çünkü bir sınıfta aynı isme sahip iki veya daha fazla 5 kişilik bir takımın olması olasılığı neredeyse sıfır ve tüm pratik amaçlar için ihmal edilebilir. Yani, İçerme / Dışlama İlkesine göre , bu olasılığı göz ardı edersek,P(Ai)P(Ai)
David C

2
Hayır, soruyu yeni formüle ettiğiniz gibi cevaplamadınız. O şans bazı isim beş veya daha fazla kez görünecek bir maksimum şans çok daha büyüktür verilen ad beş veya daha fazla kez belirecektir.
whuber

3
@Whuber'ın işaret ettiği gibi, "5 Jacobs", "bazı isimlerden 5" den daha zayıf bir argüman, ancak yine de bebek adı tartışmalarında yararlı olabilir: "İşte en popüler isme sahip beş çocuğun olasılığı. en popüler ismi kullanarak, olasılığınız daha da az. "
JPmiaou

2
Tam olarak değil , çünkü olasılıklar birbirini dışlamıyor: tek bir sınıfta 5 veya daha fazla Thomas ve 5 veya daha fazla Richards ( ve belki de 5 veya daha fazla Henrys) olabilir. Yani bu bir üst sınır. @DavidC bir yorumda bu tür olayların ihmal edilebilir bir olasılık olduğunu savunuyor.
Scortchi - Monica'yı eski durumuna döndürün
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.