K Numaralarının Toplamının Yedek Olmadan Beklentisi


9

verilmiş n her sayının değerinin farklı olduğu sayılar, v1,v2,...,vnve her sayıyı seçme olasılığı p1,p2,...,pn, sırasıyla.

Şimdi seçersem K verilen olasılıklara dayalı sayılar, Kn, bunların toplamının beklentisi nedir Ksayılar? Seçimin değiştirilmeden olduğunu unutmayın, böyleceKsayılar yinelenen sayılar içeremez. Seçim yerine geçiyorsa, toplamın beklentisininK sayılar eşittir K×E(V), nerede

E(V)=v1×p1+v2×p2+...+vn×pn.

Ayrıca, bunların varyans beklentisi ne olacak K sayılar?

Büyük bir veri sorunu üzerinde çalışan bir CS Doktora öğrencisiyim ve herhangi bir istatistik geçmişim yok. Birinin cevap olarak bana bir formül vermesini bekliyorum. Bununla birlikte, cevap bir formülle tanımlanamayacak kadar karmaşıksa veya yoğun bir hesaplama yapılması gerekiyorsa, yaklaşık bir cevap tamamen kabul edilebilirdir.

Varsayabilirsin nburada oldukça büyük ve olasılık çok değişebilir. Uygulamada, bu olasılıkların değerleri bir dizi toplama sorgusu kaydeden bir sorgu günlüğünden gelir. Mesele şu ki, sorgularda yer alan her sayının sıklığı oldukça eğri olabilir, yani bazıları nadiren sorgulanırken, bazıları çok sık sorgulanır. Olasılık dağılımının normal dağılım, zipf dağılımı veya diğer makul alternatifler olduğunu varsayabilirsiniz.

Değer dağılımı, olası herhangi bir dağılımın sadece bitişik bir alt kümesidir. Başka bir deyişle, belirli bir dağılımı temsil eden bir histogramınız varsa, bu soruna dahil olan tüm sayılar tek bir gruptaki sayılardır.

K değeri açısından, her zaman sık sorgulanan öğelerin sayısından daha az olduğunu varsayabilirsiniz.


3
Toplamın varyansının beklentisi, değiştirilmeden farklı olacaktır; yedek yoksa sonlu bir nüfus düzeltme faktörüne ihtiyacınız olacaktır. (Bunu sezgisel olarak görmek için, K = n olursa toplamın varyansı sıfırdır, çünkü her zaman aynı sayı olacaktır; böylece K n'ye yaklaştıkça toplamın varyansı daha düşük olacaktır.)
zbicyclist

1
Bu soru göründüğünden daha zor olabilir. Davayı düşününn=2 ve (v1,v2)=(0,1). Değiştirme ile çizilen iki değerin beklenen toplamı2p2bu, elbette bir değerin beklenen toplamının iki katıdır; ancak değiştirilmeden çizilen iki değerin beklenen toplamıv1+v2=12p2 ne zaman hariç p1=p2=1/2.
whuber

1
@zbicyclist Belki de sorunu açıkça belirtmedim.
Senaryomda

1
(1) Bu benim için kendi kendine çalışma sorusu gibi değil : olasılıkla gerçek bir uygulamalı sorun gibi görünüyor. (2) Ne kadar büyük olabilirnolabilir mi? Kesin çözümler, tüm altkümelerin numaralandırılmadığı durumlar dışında uygulanamaz görünür. (3) Eğern daha büyük olabilir 20 ya da öyleyse, hızlı numaralandırmadan önce, hakkında ne söyleyebilirsiniz? pi? Örneğin, değişebilirler mi yoksa hepsi oldukça yakın mıdır?1/n? Bu, yaklaşık cevapları bulma çabalarını bilgilendirebilir.
whuber

1
Düzenlemeler için teşekkürler. Bize daha fazla ne söyleyebilirsinN, K, vi, ve pi, daha iyi. Örneğin,Kmax(pi)1daha sonra değiştirme ile örnekleme formülleri iyi yaklaşımlar olmalıdır (çünkü eğer varsa, çok az değer birden fazla seçilecektir). Ben değerlerine geniş bir yelpazede olduğu yerde zor vakalar olduğuna inanıyoruz sadece sıfırlarla çoğu yerini ve henüz sahip olamayacağını -SO arasında kayda değer bir sayı için --ve . pipi>1/KiKN/2
whuber

Yanıtlar:


2

Bu muhtemelen doğru olsa da muhtemelen o kadar da faydalı olmayan bir cevap niteliğindedir. Horvitz ve Thompson (1952) genel olarak bu durumu kapsayan sonuçlar vermektedir. Bu sonuçlar, kişinin bekleyebileceği kombinatoryal ifadeler açısından verilmiştir.

Gösterimleriyle tutarlı kalmak ve daha yaygın kullanılan gösterimle daha iyi karşılık vermek için, bazı miktarları yeniden tanımlayayım. Let popülasyonunda elemanların sayısı ve örnek boyutu.Nn

Let , , temsil verilen değerler nüfusun elemanları, , ve seçim olasılıkları . Boyut belirli bir örneği için , numunede gözlemlenen değerler olalım .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

İstenen örnek toplamı ortalaması ve varyansıdır

i=1nvi.

Yorumlarda belirtildiği gibi, o sırayla çizilen belirli bir örnek seçme olasılığı ilk olasılık çizim verilir , ikinci olasılık çizim kaldırılmış olan şartına bağlıdır benzeri popülasyondan ve. Böylece çizilen her bir sonraki ünite, sonraki ünite için yeni bir olasılık dağılımı ile sonuçlanır (bu nedenle, farklı gösterge harflerinin seçimi, çünkü her biri farklı bir dağılımı temsil eder.)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Orada tüm popülasyondan içeren boyutlu örnekler . Bunun dikkate aldığını unutmayınnumunenin permütasyonları.

S(i)=n!(N1n1)
nuin!

Let boyutu belirli bir örneği belirtir içerir . Daha sonra, eleman seçme ihtimali verilir toplam boyutu grubu üzerinde olduğu ait içeren boyutundaki tüm olası . (Bana kafa karıştırıcı göründüğü için gösterimi kağıttan biraz değiştirdim.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Benzer şekilde her ikisini ihtiva eden numune sayısı olarak ve . Daha sonra, her ikisinin de olasılığını burada toplam, boyut kümesinin üzerindedir mümkün olan tüm örnekler arasında boyutta içeren ve .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Beklenen değer daha sonra

E(i=1nvi)=i=1NP(ui)Vi.

Varyans kağıt açıkça elde edilmez, ancak bunun expections elde edilebilir an inci ve çapraz ürünler q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Başka bir deyişle, bu hesaplamaları yapmak için olası tüm altkümeleri gözden geçirmek gerekecektir. Belki de bu daha küçük değerleri için yapılabilir .n

Horvitz, DG ve Thompson, DJ (1952) Sonlu bir evrenin yerine geçmeden örneklemenin genelleştirilmesi. Amerikan İstatistik Kurumu Dergisi 47 (260): 663-685.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.