verilmiş her sayının değerinin farklı olduğu sayılar, ve her sayıyı seçme olasılığı , sırasıyla.
Şimdi seçersem verilen olasılıklara dayalı sayılar, , bunların toplamının beklentisi nedir sayılar? Seçimin değiştirilmeden olduğunu unutmayın, böylecesayılar yinelenen sayılar içeremez. Seçim yerine geçiyorsa, toplamın beklentisinin sayılar eşittir , nerede
Ayrıca, bunların varyans beklentisi ne olacak sayılar?
Büyük bir veri sorunu üzerinde çalışan bir CS Doktora öğrencisiyim ve herhangi bir istatistik geçmişim yok. Birinin cevap olarak bana bir formül vermesini bekliyorum. Bununla birlikte, cevap bir formülle tanımlanamayacak kadar karmaşıksa veya yoğun bir hesaplama yapılması gerekiyorsa, yaklaşık bir cevap tamamen kabul edilebilirdir.
Varsayabilirsin burada oldukça büyük ve olasılık çok değişebilir. Uygulamada, bu olasılıkların değerleri bir dizi toplama sorgusu kaydeden bir sorgu günlüğünden gelir. Mesele şu ki, sorgularda yer alan her sayının sıklığı oldukça eğri olabilir, yani bazıları nadiren sorgulanırken, bazıları çok sık sorgulanır. Olasılık dağılımının normal dağılım, zipf dağılımı veya diğer makul alternatifler olduğunu varsayabilirsiniz.
Değer dağılımı, olası herhangi bir dağılımın sadece bitişik bir alt kümesidir. Başka bir deyişle, belirli bir dağılımı temsil eden bir histogramınız varsa, bu soruna dahil olan tüm sayılar tek bir gruptaki sayılardır.
K değeri açısından, her zaman sık sorgulanan öğelerin sayısından daha az olduğunu varsayabilirsiniz.