K Numaralarının Toplamının Yedek Olmadan Beklentisi

verilmiş $n$ her sayının değerinin farklı olduğu sayılar, $v_1, v_2, ..., v_n$ ve her sayıyı seçme olasılığı $p_1, p_2, ..., p_n$ , sırasıyla.

Şimdi seçersem $K$ verilen olasılıklara dayalı sayılar, $K \leq n$ , bunların toplamının beklentisi nedir $K$ sayılar? Seçimin değiştirilmeden olduğunu unutmayın, böylece $K$ sayılar yinelenen sayılar içeremez. Seçim yerine geçiyorsa, toplamın beklentisinin $K$ sayılar eşittir $K \times E(V)$ , nerede

E (V) = v_{1} \times p_{1} + v_{2} \times p_{2} + . . . + v_{n} \times p_{n} .

$E(V) = v_1 \times p_1 + v_2 \times p_2 + ... + v_n \times p_n.$

Ayrıca, bunların varyans beklentisi ne olacak $K$ sayılar?

Büyük bir veri sorunu üzerinde çalışan bir CS Doktora öğrencisiyim ve herhangi bir istatistik geçmişim yok. Birinin cevap olarak bana bir formül vermesini bekliyorum. Bununla birlikte, cevap bir formülle tanımlanamayacak kadar karmaşıksa veya yoğun bir hesaplama yapılması gerekiyorsa, yaklaşık bir cevap tamamen kabul edilebilirdir.

Varsayabilirsin $n$ burada oldukça büyük ve olasılık çok değişebilir. Uygulamada, bu olasılıkların değerleri bir dizi toplama sorgusu kaydeden bir sorgu günlüğünden gelir. Mesele şu ki, sorgularda yer alan her sayının sıklığı oldukça eğri olabilir, yani bazıları nadiren sorgulanırken, bazıları çok sık sorgulanır. Olasılık dağılımının normal dağılım, zipf dağılımı veya diğer makul alternatifler olduğunu varsayabilirsiniz.

Değer dağılımı, olası herhangi bir dağılımın sadece bitişik bir alt kümesidir. Başka bir deyişle, belirli bir dağılımı temsil eden bir histogramınız varsa, bu soruna dahil olan tüm sayılar tek bir gruptaki sayılardır.

K değeri açısından, her zaman sık sorgulanan öğelerin sayısından daha az olduğunu varsayabilirsiniz.

probability

— SciPioneer
kaynak

Toplamın varyansının beklentisi, değiştirilmeden farklı olacaktır; yedek yoksa sonlu bir nüfus düzeltme faktörüne ihtiyacınız olacaktır. (Bunu sezgisel olarak görmek için, K = n olursa toplamın varyansı sıfırdır, çünkü her zaman aynı sayı olacaktır; böylece K n'ye yaklaştıkça toplamın varyansı daha düşük olacaktır.)

— zbicyclist

Bu soru göründüğünden daha zor olabilir. Davayı düşünün

n = 2

$n=2$ ve

(v_{1}, v_{2}) = (0, 1)

$(v_1,v_2)=(0,1)$ . Değiştirme ile çizilen iki değerin beklenen toplamı

2 p_{2}

$2p_2$ bu, elbette bir değerin beklenen toplamının iki katıdır; ancak değiştirilmeden çizilen iki değerin beklenen toplamı

v_{1} + v_{2} = 1 \neq 2 p_{2}

$v_1+v_2=1\ne 2p_2$ ne zaman hariç

p_{1} = p_{2} = 1 / 2

$p_1=p_2=1/2$ .

— whuber

@zbicyclist Belki de sorunu açıkça belirtmedim.

— Senaryomda

(1) Bu benim için kendi kendine çalışma sorusu gibi değil : olasılıkla gerçek bir uygulamalı sorun gibi görünüyor. (2) Ne kadar büyük olabilir

n

$n$ olabilir mi? Kesin çözümler, tüm altkümelerin numaralandırılmadığı durumlar dışında uygulanamaz görünür. (3) Eğer

n

$n$ daha büyük olabilir

20

$20$ ya da öyleyse, hızlı numaralandırmadan önce, hakkında ne söyleyebilirsiniz?

p_{i}

$p_i$ ? Örneğin, değişebilirler mi yoksa hepsi oldukça yakın mıdır?

1 / n

$1/n$ ? Bu, yaklaşık cevapları bulma çabalarını bilgilendirebilir.

— whuber

Düzenlemeler için teşekkürler. Bize daha fazla ne söyleyebilirsin

N

$N$ ,

K

$K$ ,

v_{i}

$v_i$ , ve

p_{i}

$p_i$ , daha iyi. Örneğin,

K max (p_{i}) ≪ 1

$K\max(p_i)\ll 1$ daha sonra değiştirme ile örnekleme formülleri iyi yaklaşımlar olmalıdır (çünkü eğer varsa, çok az değer birden fazla seçilecektir). Ben değerlerine geniş bir yelpazede olduğu yerde zor vakalar olduğuna inanıyoruz sadece sıfırlarla çoğu yerini ve henüz sahip olamayacağını -SO arasında kayda değer bir sayı için --ve .

p_{i}

$p_i$

p_{i} > 1 / K

$p_i\gt 1/K$

i

$i$

K \approx N / 2

$K\approx N/2$

— whuber

Bu muhtemelen doğru olsa da muhtemelen o kadar da faydalı olmayan bir cevap niteliğindedir. Horvitz ve Thompson (1952) genel olarak bu durumu kapsayan sonuçlar vermektedir. Bu sonuçlar, kişinin bekleyebileceği kombinatoryal ifadeler açısından verilmiştir.

Gösterimleriyle tutarlı kalmak ve daha yaygın kullanılan gösterimle daha iyi karşılık vermek için, bazı miktarları yeniden tanımlayayım. Let popülasyonunda elemanların sayısı ve örnek boyutu. $N$ $n$

Let , , temsil verilen değerler nüfusun elemanları, , ve seçim olasılıkları . Boyut belirli bir örneği için , numunede gözlemlenen değerler olalım . $u_i$ $i=1,...,N$ $N$ $V_i$ $i=1,...,N$ $p_1,...,p_N$ $n$ $v_1,..., v_n$

İstenen örnek toplamı ortalaması ve varyansıdır

\sum_{i = 1}^{n} v_{i} .

$\sum_{i=1}^n v_i.$

Yorumlarda belirtildiği gibi, o sırayla çizilen belirli bir örnek seçme olasılığı ilk olasılık çizim verilir , ikinci olasılık çizim kaldırılmış olan şartına bağlıdır benzeri popülasyondan ve. Böylece çizilen her bir sonraki ünite, sonraki ünite için yeni bir olasılık dağılımı ile sonuçlanır (bu nedenle, farklı gösterge harflerinin seçimi, çünkü her biri farklı bir dağılımı temsil eder.) $s = \{u_i, u_j, ..., u_t\}$

Pr (s) = p_{i_{1}} p_{j_{2}} \dots p_{t_{n}},

$\textrm{Pr}(s) = p_{i_1}p_{j_2}\cdots p_{t_n},$

p_{i_{1}}

$p_{i_1}$

u_{i}

$u_i$

p_{i}

$p_i$

p_{j_{2}}

$p_{j_2}$

u_{j}

$u_j$

u_{i}

$u_i$

Orada tüm popülasyondan içeren boyutlu örnekler . Bunun dikkate aldığını unutmayınnumunenin permütasyonları.

S^{(i)} = n! (\binom{N - 1}{n - 1})

$S^{(i)} = n! \binom{N-1}{n-1}$

n

$n$

u_{i}

$u_i$

n!

$n!$

Let boyutu belirli bir örneği belirtir içerir . Daha sonra, eleman seçme ihtimali verilir toplam boyutu grubu üzerinde olduğu ait içeren boyutundaki tüm olası . (Bana kafa karıştırıcı göründüğü için gösterimi kağıttan biraz değiştirdim.) $s_n^{(i)}$ $n$ $u_i$ $u_i$

P (u_{i}) = \sum Pr (s_{n}^{(i)}),

$P(u_i) = \sum \textrm{Pr}(s_n^{(i)}),$

S^{(i)}

$S^{(i)}$

s_{n}^{(i)}

$s_n^{(i)}$

n

$n$

u_{i}

$u_i$

Benzer şekilde her ikisini ihtiva eden numune sayısı olarak ve . Daha sonra, her ikisinin de olasılığını burada toplam, boyut kümesinin üzerindedir mümkün olan tüm örnekler arasında boyutta içeren ve .

S^{(i j)} = n! (\binom{N - 2}{n - 2})

$S^{(ij)} = n! \binom{N-2}{n-2}$

u_{i}

$u_i$

u_{j}

$u_j$

P (u_{i} u_{j}) = \sum Pr (s_{n}^{(i j)}),

$\textrm{P}(u_i u_j) = \sum \textrm{Pr}(s_n^{(ij)}),$

S^{(i j)}

$S^{(ij)}$

s_{n}^{(i j)}

$s_n^{(ij)}$

n

$n$

u_{i}

$u_i$

u_{j}

$u_j$

Beklenen değer daha sonra

E (\sum_{i = 1}^{n} v_{i}) = \sum_{i = 1}^{N} P (u_{i}) V_{i} .

$E \left( \sum_{i=1}^n v_i \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i.$

Varyans kağıt açıkça elde edilmez, ancak bunun expections elde edilebilir an inci ve çapraz ürünler $q$

E (\sum_{i = 1}^{n} v_{i}^{q}) = \sum_{i = 1}^{N} P (u_{i}) V_{i}^{q}

$E \left( \sum_{i=1}^n v_i^q \right) = \sum_{i=1}^N \textrm{P}(u_i) V_i^q$

E (\sum_{i \neq j}^{n} v_{i} v_{j}) = \sum_{i \neq j} P (u_{i} u_{j}) V_{i} V_{j} .

$E \left( \sum_{i \ne j}^n v_iv_j \right) = \sum_{i \ne j} \textrm{P}(u_i u_j) V_i V_j.$

Başka bir deyişle, bu hesaplamaları yapmak için olası tüm altkümeleri gözden geçirmek gerekecektir. Belki de bu daha küçük değerleri için yapılabilir . $n$

Horvitz, DG ve Thompson, DJ (1952) Sonlu bir evrenin yerine geçmeden örneklemenin genelleştirilmesi. Amerikan İstatistik Kurumu Dergisi 47 (260): 663-685.

— jvbraun
kaynak