Boyutlar arttıkça normal dağılımın yoğunluğu


15

Sormak istediğim soru şudur: Normal dağılımın ortalama 1 SD'si içindeki örneklerin oranı, değişken sayısı arttıkça nasıl değişir?

(Neredeyse) herkes, 1 boyutlu normal dağılımda, numunelerin% 68'inin ortalamanın 1 standart sapması içinde bulunabileceğini bilir. 2, 3, 4, ... boyutlarında ne olacak? Azaldığını biliyorum ... ama ne kadar (tam olarak)? 1, 2, 3 ... 10 boyutlarının yanı sıra 1, 2, 3 ... 10 SD'ler için rakamları gösteren bir tabloya sahip olmak kullanışlı olacaktır. Herkes böyle bir tabloya işaret edebilir mi?

Biraz daha bağlam - 128 kanala kadar veri sağlayan bir sensöre sahibim. Her kanal (bağımsız) elektrik gürültüsüne maruz kalır. Bir kalibrasyon nesnesini algıladığımda, 128 ayrı standart sapma ile birlikte 128 kanalda yeterli sayıda ölçüm yapabilir ve ortalama bir değer elde edebilirim.

ANCAK ... bireysel anlık okumalar söz konusu olduğunda, veriler 128 ayrı okumaya çok fazla yanıt vermiyor ve 128-dimensonal vektör miktarının tek bir okuması gibi. Kuşkusuz bu, aldığımız birkaç kritik değeri (tipik olarak 128'den 4-6) tedavi etmenin en iyi yoludur.

Bu vektör uzayında "normal" varyasyon ve "aykırı" nedir hakkında bir fikir edinmek istiyorum. Eminim tarif ettiğim gibi bu tür bir durum için geçerli bir tablo gördüm - kimse bir birine işaret edebilir mi?


Lütfen - sadece ampirik cevapları alabilir miyim - çoğu matematiksel notasyonu anlamıyorum.
omatai

Yanıtlar:


19

alalım X=(X1,,Xd)N(0,I): her Xi normal N(0,1) ve Xi bağımsızdır - sanırım daha yüksek boyutlarda demek istediğiniz budur.

Bunu söyleyebilirim ortalama 1 sd içinde olduğu zaman | | X | | < 1 (X ile ortalama değeri arasındaki mesafe 1'den düşük). Şimdi | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ) bu yüzden P ( ξ < 1 ) olasılığı ile olur, burada ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Bunu iyi chi kare tablolarında bulabilirsiniz ...

İşte birkaç değer:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

Ve 2 sd için:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Sen gibi commads ile Ar bu değerleri alabilirsiniz pchisq(1,df=1:10), pchisq(4,df=1:10)vb

Post Scriptum Yorumlarda belirtildiği gibi, bu olasılıkların asimtotik davranışını tahmin edebiliriz. Bir KTL değişken olup F D ( x ) = p ( d / 2 , X / 2 ) = γ ( d / 2 , X / 2 )χ2(d) buradaγ(s,y)=y0ts-1, e-tdtolaneksikγtaşımasının avantajlıve classicalyΓ(ler)=∞ iken0ts-1, e-tdt.

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

Tüm parçaları gösterir bir tamsayı, tekrar entegrasyon olduğu P ( s , y ) = E - y ∞ iken Σ k = s y ks Poisson dağılımının CDF kuyruk hangi.

P(s,y)=eyk=sykk!,

Şimdi bu meblağa ilk dönemi hakim (kardinal sayesinde çok teşekkürler): P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
for big even d, the penultimate equivalence using Stirling formula. From this formula we see that the asymptotic decay is very fast as d increase.

Welcome to our site, Elvis! Nice answer. (+1)
whuber

1
(+1) Good answer. Here are a couple suggestions for your consideration: (1) It might help to make explicit what ξ is for clarity's sake, (2) briefly give an intuitive argument for the choice you've made for the meaning of "one standard deviation" in this context and why it is even well-defined in the first place, and (3) add a statement regarding the growth of this quantity as a function of d. (The OP asks for only "empirical" answers, but other readers might appreciate a small mathematical addendum.)
cardinal

Thank you for your comments. I didn’t think this answer would receive much attention! It is true that this is a nice form of the curse of dimensionality... @cardinal concerning (3) I don’t know any asymptotic equivalent of the incomplete gamma function when the first parameters goes to infinity, the second being fixed, this is not easy! A rough majoration could be done, I may write that later.
Elvis

2
Regarding (3), to avoid a computation, you can employ the following argument: Let d be even and such that d=2k. Note that Zi=X2i12+X2i2 is an Exp(1/2) random variable. So X2=i=1kZi. But, then X2 is just the time until the kth renewal of a Poisson process with rate 1/2. So P(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal

1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.