EDIT: Trajedi! İlk varsayımlarım yanlıştı! Ben istatistiklerine başka iyi tanıtım olduğunu tahmin Hangi - (Ya şüphe, en azından.? Satıcının yanı, Morten için şapka ucu, Hala sana ne dediğini güveniyorsunuz), ancak Kısmi Sac Yaklaşımı şimdi olduğu katma altında ( insanlar Tüm Sayfayı beğenmiş gibiydiler, ve belki de birileri hala faydalı bulacaktır).
Her şeyden önce, büyük sorun. Ama biraz daha karmaşık hale getirmek istiyorum.
Bu nedenle, benden önce biraz daha basitleştireyim ve şunu söyleyeyim - şu anda kullandığınız yöntem tamamen makul . Ucuz, kolay anlaşılır. Bu yüzden buna bağlı kalmak zorundaysan, kendini kötü hissetmemelisin. Paketlerinizi rastgele seçtiğinizden emin olun. VE, eğer herşeyi güvenilir bir şekilde ölçebiliyorsanız (whuber ve user777 için şapka ucu), o zaman bunu yapmalısınız.
Bunu biraz daha karmaşık hale getirmemin nedeni, zaten sahip olduğun şey - bize tüm komplikasyondan bahsetmedin, ki bu - saymak zaman alıyor ve zaman da para . Ama ne kadar ? Belki aslında her şeyi saymak daha ucuzdur!
Yani gerçekte yaptığınız şey, harcadığınız para ile saymak için gereken zamanı dengelemek. (EĞER, elbette, bu oyunu sadece bir kez oynarsınız. NEXT bununla satıcıda bunun gerçekleştiği zaman, yakalamış ve yeni bir numara denemiş olabilir. Oyun teorisinde, Tek Çekim Oyunları ile İterasyon arasındaki fark budur. Oyunlar. Ama şimdilik, satıcının hep aynı şeyi yapacağını farzedelim.)
Tahmin etmeden önce bir şey daha. (Ve, çok fazla yazdığım için üzgünüm ve hala cevabı alamadım, ama o zaman, bu bir istatistikçi ne yapardı? İçin oldukça iyi bir cevap. Sorunun her küçük parçasını anladıklarından emin olmak için çok fazla zaman harcayacaklardı. onlar hakkında bir şey söyleme konusunda rahatlardı.) Ve bu şey, aşağıdakilere dayanan bir içgörüdür:
(EDIT: GERÇEKTEN HEDEF ETMİYORLAR ... ...) Satıcınız etiketleri kaldırarak para tasarrufu yapmaz - sayfa basmayarak para tasarrufu sağlar. Etiketlerinizi başka birine satamazlar (Sanırım). Ve belki de bilmiyorum ve bilmiyorum eğer sen yaparsın, senin eşyalarının yarısını, başkalarının yarısını da basamazlar. Başka bir deyişle, saymaya başlamadan önce, toplam etiket sayısının da olduğunu varsayabilirsiniz 9000, 9100, ... 9900, or 10,000
. Şimdilik böyle yaklaşacağım.
Tüm Sac Yöntemi
Bir problem bunun gibi biraz zorlaştığında (ayrık ve sınırlı), birçok istatistikçi ne olabileceğini simüle edecektir. İşte simüle ettiğim şey:
# The number of sheets they used
sheets <- sample(90:100, 1)
# The base counts for the stacks
stacks <- rep(90, 100)
# The remaining labels are distributed randomly over the stacks
for(i in 1:((sheets-90)*100)){
bucket <- sample(which(stacks!=100),1)
stacks[bucket] <- stacks[bucket] + 1
}
Bu, tam sayfalar kullandıklarını ve varsayımlarınızın doğru olduğunu, etiketlerinizin muhtemel bir dağılımını (R programlama dilinde) varsaydığını gösterir.
Sonra bunu yaptım:
alpha = 0.05/2
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
print(round(quantile(s, probs=c(alpha, 1-alpha)), 3))
}
Bu, bir "önyükleme" yöntemi kullanarak, 4, 5, ... 20 örnek kullanarak güven aralıklarını bulur. Başka bir deyişle, Ortalama olarak, eğer N örnek kullanacak olsaydınız, güven aralığınız ne kadar büyük olurdu? Bunu yaprak sayısına karar verecek kadar küçük bir aralık bulmak için kullanıyorum ve bu benim cevabım.
"Yeterince küçük" derken,% 95 güven aralığımın içinde sadece bir tam sayı olduğunu kastediyorum - örneğin, güven aralığı [93.1, 94.7] 'den olsaydı, o zaman bildiğimizden beri doğru sayfa sayısı olarak 94 seçerdim. bu bir tam sayı.
Yine de başka bir zorluk - güveniniz gerçeğe bağlıdır . 90 sayfanız varsa ve her yığında 90 etiket varsa, çok hızlı bir şekilde birleşirsiniz. 100 sayfa ile aynı. Bu yüzden en fazla belirsizliğin olduğu 95 sayfaya baktım ve% 95 kesinliğe sahip olmak için, ortalama olarak yaklaşık 15 örneğe ihtiyacınız olduğunu öğrendim. Diyelim ki genel olarak 15 örnek almak istiyorsunuz, çünkü orada gerçekten ne olduğunu asla bilemezsiniz.
Kaç tane örneğe ihtiyacınız olduğunu bildikten sonra, beklenen tasarrufunuzun olduğunu biliyorsunuz:
100Nmissing−15c
c500−15∗
Ama aynı zamanda bu işi yapman için adamdan da para almalısın!
(EDIT: EKLENDİ!) Kısmi Sayfa Yaklaşımı
Tamam, üreticinin ne söylediğini doğru olarak kabul edelim ve kasıtlı değil - her sayfada birkaç etiket kayboluyor. Hala, kaç etiket hakkında, genel olarak bilmek istiyor musunuz?
Bu sorun farklı çünkü artık yapabileceğiniz güzel ve temiz bir kararınız yok - bu, Tam Tabaka varsayımının bir avantajıydı. Önceden, sadece 11 olası cevap vardı - şimdi, 1100 var ve tam olarak kaç etiketin bulunduğu konusunda % 95 güven aralığına sahip olmak muhtemelen istediğinizden çok daha fazla örnek alacaktır. Bakalım bunu farklı düşünebilir miyiz bakalım.
Bu gerçekten sizin karar vermenizle ilgili olduğu için, hala birkaç parametreyi kaçırıyoruz - tek bir anlaşmada ne kadar para kaybetmek istiyorsunuz ve bir yığını saymanın ne kadar maliyeti var. Ama bu numaralarla ne yapabileceğini ayarlayayım.
Tekrar benzetim yapın (eğer yapmadan yapabilirseniz kullanıcı777'ye geçmesine rağmen!), Farklı sayıdaki örnekleri kullanırken aralıkların boyutuna bakmak bilgilendiricidir. Bu böyle yapılabilir:
stacks <- 90 + round(10*runif(100))
q <- array(dim=c(17,2))
for(i in 4:20){
s <- replicate(1000, mean(sample(stacks, i)))
q[i-3,] <- quantile(s, probs=c(.025, .975))
}
plot(q[,1], ylim=c(90,100))
points(q[,2])
Hangisi (bu sefer) her bir yığının 90 ile 100 arasında eşit miktarda rasgele bir etikete sahip olduğunu varsayar ve size şunları verir:
Elbette, işler gerçekten benzetilmişlerse, gerçek ortalama yığın başına yaklaşık 95 örnek olacaktır, ki bu gerçeğin göründüğünden daha düşüktür - bu aslında Bayesian yaklaşımı için bir argümandır. Ancak, size örnekleme yapmaya devam ederken, cevabınızla ilgili ne kadar emin olacağınıza dair yararlı bir fikir verir - ve şimdi fiyatlandırma konusunda ne tür bir anlaşma yapsanız, örnekleme maliyetini açıkça değiştirebilirsiniz.
Şimdilik biliyorum ki, hepimiz duymak gerçekten merak ediyoruz.