lütfen Python2 için aşağıdaki Python betiğine bakın.
Cevap David C'nin cevabından esinlenmiştir.
Benim son cevap Jacob verilerine göre en olası isim olmakla beraber bir sınıfta en az beş Jacobs bulma olasılığı olurdu https://www.ssa.gov/oact/babynames/limits.html Ulusal Verileri" "2006'dan itibaren.
Olasılık, binom dağılımına göre hesaplanır; Jacob-Olasılık, başarı olasılığıdır.
import pandas as pd
from scipy.stats import binom
data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])
# count of children in the dataset:
sumCount = data.Count.sum()
# do calculation for every name:
for i, row in data.iterrows():
# relative counts of each name being interpreted as probabily of occurrence
data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)
# Probabilites being five or more children with that name in a class of size n=25,50 or 100
data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])
maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()
print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
.format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
.format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
.format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))
Maks. 25 üzerinden aynı ada sahip en az beş çocuk olasılığı: Jacob adı için 4.7e-07
Maks. Tabii ki Jacob adı için 50: 1.6e-05 üzerinden aynı adı taşıyan en az beş çocuk için olasılık.
Maks. Tabii ki 100: 0.00045'ten aynı isme sahip en az beş çocuk için olasılık Jacob.
David C ile aynı sonuç 10 faktör. Teşekkürler. (Cevabım tüm isimleri toplamıyor, tartışılmalıdır)