% 95'ten az nesnenin hatalı olma şansı% 95 ise, kaç örneğe ihtiyacım var?


9

XML site haritanızın daha az olduğundan emin olmalıyım 1%çöp (kırık bağlantılar). URL listesi yüz binlerce, ve hepsini 1'e 1 test etmek mümkün olsa bile, pek çok nedenden dolayı:

1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...

Bu yüzden rastgele bir alt küme almak yeterli olur diye düşünüyorum, sorun olasılıkları bilmiyorum.

Kullanabileceğim basit bir işlev var mı?

Eğer yardımcı olursa , bir bağlantının çalışmalarda kopma olasılığı hakkında önceden bilgi sahibi olabiliriz. Diyelim ki koşular boyunca bir0.75% herhangi bir bağlantının kopması için.


Kaç URL'niz var? (Sonlu bir popülasyonla ilgili çıkarımlar, sonsuz bir popülasyonla ilgili olağan çıkarımdan biraz farklıdır.)
Kodiologist

?? sonlu bir sayı belli ki
gurghet

Söylemeye gerek yok, ama hangi sonlu sayı?
Kodiolog

yüz binlerce, her gün biraz farklı
gurghet

Site haritanızı değiştiren ne oluyor? Her gün tamamen farklı bir site haritanız var mı veya bazı URL'ler ekleniyor ve kaldırılıyor mu? İkincisi, eklenmiş veya kaldırılmış olanları takip edebilirsiniz, böylece sadece yenilerini kontrol etmeniz gerekir mi?
Kodiologist

Yanıtlar:


4

Bu nedenle, kırılma oranı hakkındaki önceden inancınızın dağılımına bağlıdır, ancak: yaklaşık 3600.

import scipy as sp

p = 0.0075
threshold = .01
confidence = .95

f = lambda n: sp.stats.beta(a=n*p, b=n*(1-p)).cdf(threshold) - confidence
print(sp.optimize.fsolve(f, 1000)[0])

>> 3627.45119614

Buradaki fikir, bağlantı kopmalarını Bernoulli denemesi olarak modellemek ve kırılma oranı hakkındaki inançlarınızı beta dağıtımı olarak modellemek. Beta dağıtımı Bernoulli dağıtımına eşdeğerdir ve bir deneme çalıştırdığınızda beta dağıtımını güncelleme yöntemi oldukça basittir:

  • eğer bir hata varsa, ilk parametreye bir tane eklersiniz, α
  • başarılı olursa, ikinci parametreye bir tane eklersiniz, β

Yani eğer bir Beta(0,0)dağılım ve zamanın yaklaşık% 75'i başarısızlık görüyorsa, dağılım kütlesinin% 95'i 0.01'in altına düşmeden önce kaç deneme yapılacak? Yaklaşık 3600.


Bayesian analizinin öncekinden bu yana daha mantıklı olduğu vakalardan biri, sadece vahşi bir eşek tahmin etmek veya daha kötüsü manipüle etme niyeti değildir. Ama belki dep parametre% 0.5 ila 0.9 arasında ve gerekli karşılık gelen grafiğini çizin n
David Ernst

1

İçin n ile örnekler p=0.0075 başarısız olma şansı, başarısızlık sayısı için varyans np(1-p). Yani merkezi limit teoremini kullanarak,Z standart bir normal,

P(arızaları<.01n)P(Z<n(.01-p)np(1-p))P(Z<n0,02898)
Şimdi yukarıdakilerin% 95'e eşit olmasını istiyoruz. Z=1,645. Çözmen0,02898=1,645, Alırım n=3222.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.