Partiye yaklaşık 1,5 yıl geciktim, ama sadece bunun üzerine tökezleyen başkalarına göndereceğimi düşündüm.
Bence en iyi bahis, sahip olduğunuz verilerden bir kümülatif dağılım fonksiyonunu enterpolasyon yapmak. Bu, özellikle sağladığınız örnek veriler birlikte çalıştığınız dağıtıma yakınsa, bazı dikkat çekici ve el sallama işlemlerine neden olabilir. Bununla birlikte, ilk başta tahmin ettiğiniz bir dağıtımdan bir milyon + sahte veri noktası oluşturmaktan (ve saklamaktan!) Kesinlikle korkuyor.
CDF'yi edinmek için, her bir kova için kümülatif olasılığı hesaplamanız gerekir. Her zaman biraz gecikme olduğunu varsayalım, bu yüzden 0 sıklıkta minimum değeriniz olarak 0 alın. Her kova üst sınırındaki CDF değerini bulmak için aşağıdaki formülü kullanın.
(sum of frequencies in bucket and previous buckets)/(sum of all frequencies)
Sağladığınız örnek veriler için kümülatif olasılık puanları,
{(0,0); (1;0.943); (3,0.969); (5,0.995); (7,0.999); (10,1)}
Şimdi, incelik için. Eğer dağıtımın nasıl göründüğüne dair bazı sağduyulu içgörüleriniz varsa, örneğin gecikmelerin yaklaşık% 25'inin 0,1 ms'den az olduğunu düşünüyorsanız, bu sezgileri verilerinize ekleyebilirsiniz. Dağılımın neye benzemesi gerektiği hakkında hiçbir fikriniz yoksa, sahip olduklarınızla yuvarlanabilirsiniz.
Buradan iki seçeneğiniz vardır: (a) sahip olduğunuz noktalar arasında doğrusal olarak enterpolasyon yapın veya (b) verilerinize beta dağılımı gibi işlevsel bir forma uyun. (a) regresyon gerektirmediğinden daha basittir; ancak, size sahip olduğunuzdan daha iyi taneli bir resim vermeyecektir ve sıklıkların hesaplanması biraz Excel formülü kung fu gerektirir. (b) size temel verilere, lineer enterpolasyondan daha yakından benzeyen ince taneli bir resim sunacak ve herhangi bir kepçe veya yüzdelik frekansları bulmak için yalnızca basit, basit Excel formülleri gerektirecektir; ancak, Çözücü eklentisini gerektiren bir regresyon gerektirir. (B) seçeneğini tercih ediyorum çünkü paranızın karşılığını en iyi şekilde alıyor (yani çaba).