Limitlerle sınırlanmış 0 ortalama ile 2D standart sapma nasıl hesaplanır


10

Benim sorunum şöyledir: Bir kerede 40 top düşürüyorum, yerden birkaç metre. Toplar yuvarlanıyor ve dinleniyor. Bilgisayarlı görmeyi kullanarak XY düzlemindeki kütle merkezini hesaplıyorum. Sadece kütle merkezinden her bir topa, basit geometri kullanılarak hesaplanan mesafeyle ilgileniyorum. Şimdi, merkezden tek taraflı standart sapmayı bilmek istiyorum. Böylece, belli sayıda topun bir std yarıçapı içinde olduğunu, 2 * std yarıçapı içinde daha fazla topun vb. Tek taraflı standart sapmayı nasıl hesaplayabilirim? Normal bir yaklaşım, topların yarısının 0 ortalamanın "negatif tarafında" olduğunu belirtir. Bu, elbette bu deneyde bir anlam ifade etmiyor. Topların standart dağılıma uyduğundan emin olmam gerekir mi? Herhangi bir yardım için teşekkürler.

Yanıtlar:


13

Merkezde 2B dağılım miktarını karakterize etmek için, sadece (kök) ortalama kare mesafesini,

σ^=RMS=1nΣben((xben-x¯)2+(yben-y¯)2).

Bu formülde, (xben,yben),ben=1,2,...,n nokta koordinatlarıdır ve onların sentroidleri (ortalamalar noktası) (x¯,y¯).


Soru mesafelerin dağılımını soruyor . Toplar izotropik iki değişkenli olduğunda, sentroidleri etrafında normal dağılım - standart ve fiziksel olarak makul bir varsayım - kare mesafe, iki serbestlik derecesine sahip (her bir koordinat için bir tane) ki-kare dağılımıyla orantılıdır. Bu, bağımsız standart normal değişkenlerin karelerinin toplamı olarak ki kare dağılımının bir tanımının doğrudan bir sonucudur, çünkü

xix¯=n1nxiji1nxj
bağımsız normal değişkenlerin beklenti ile doğrusal bir kombinasyonudur.
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
Ortak varyansının yazılması xi gibi σ2,
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
Anizotropinin varsayımı, yj ile aynı dağılıma sahip xi ve onlardan bağımsız olduklarından, (yjy¯)2. Bu orantısallık sabitini oluşturur: mesafelerin kareleri, iki serbestlik derecesine sahip,n1nσ2.

Bu denklemlerin en ciddi testi durum n=2, o zaman kesir n1n en çok farklı 1. Deneyi simüle ederek, hemn=2 ve n=40ve kareli mesafelerin histogramlarını ölçeklendirilmiş ki-kare dağılımları (kırmızı renkte) ile çizerek, bu teoriyi doğrulayabiliriz.

şekil

Her satır aynı verileri gösterir: solda x ekseni logaritmiktir; sağda gerçek kare mesafesini gösterir. Gerçek değeriσ çünkü bu simülasyonlar 1.

Bu sonuçlar aşağıdakilerle 100.000 yineleme içindir: n=2 ve 50.000 yineleme n=40. Histogramlar ve ki-kare yoğunlukları arasındaki anlaşmalar mükemmeldir.


olmasına rağmen σ2bilinmiyor, çeşitli şekillerde tahmin edilebilir. Örneğin, ortalama kare mesafesin1nσ2 ortalamaları χ22, hangisi 2. İlen=40, örneğin, tahmin σ2 gibi 4039/2ortalama kare mesafesinin çarpımı. Böylece bir tahminσ olabilir 40/78RMS mesafesinin çarpımı. Değerlerini kullanmaχ22 daha sonra şunu söyleyebiliriz:

  • Mesafelerin yaklaşık% 39'u 39/40σ^, çünkü% 39 χ22 dağıtım daha az 1.

  • Mesafelerin yaklaşık% 78'i 3 zamanlar 39/40σ^, çünkü% 78 χ22 dağıtım daha az 3.

Ve böylece, yerine koymak istediğiniz herhangi bir çoklu için 1 veya 3. Bir kontrol olarak, için simülasyonlardan=40 önceden çizilmişse, kare mesafelerin gerçek oranları 1,2,,10 zamanlar n1nσ^2 idi

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Teorik oranlar

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

Anlaşma mükemmel.


İşte Ryürütmek ve simülasyonları analiz kodu.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)

2
Çok kapsamlı bir cevap için teşekkür ederim. RMS formülünün bilya sayısına bölünmeden standart sapmayı nasıl tanımlayabildiğini tam olarak anlayamıyorum. Http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics ile karşılaştırırsanız , toplamı N'ye böldüler. Toplam N veya N-1'e bölünürse (40 top sadece popülasyondan seçim?)
K_scheduler

Hesaplamaları tekrar yaptıktan sonra, sqrt (SDx ^ 2 + SDy ^ 2) peşindeyim gibi görünüyor. Bu bana% 65 olasılıkla tüm topları içeren bir daire için bir yarıçap verecektir, değil mi?
K_scheduler

Bu RMS için eşdeğer bir formüldür, ancak bu cevapta açıklandığı gibi% 65 değeri yanlıştır.
whuber

2
@nali Tüm bu noktalar cevabımda açıkça belirtiliyor.
whuber

4
@nali Buradaki yayınlarınız, edepsizlikleri ve ad hominem saldırılarında uygunluğun ötesine geçiyor . Her ne kadar cahil ya da aptal olduğum konusunda endişelenmeme rağmen, bu sitenin moderatörü olarak söylemi sivil tutmaktan endişe duymalıyım ve bu nedenle yayınladığınız vituperasyona tahammül edemem. Buna göre, son yorumunuzu sildim. Sizden benzer şekilde kaba, herkese karşı yorumlar görürsem, bunları önceden haber vermeden silerim ve ben (veya diğer moderatörler) bu sitedeki etkileşimlerinizi sınırlandırmak için hemen adımlar atacağım.
whuber

4

Sanırım bazı şeyler biraz karıştı. Mesafenin negatif olamayacağı doğrudur, ancak bu standart sapmanın hesaplanmasını etkilemez. Mesafelerin dağılımı tam olarak normal olamayacak olsa da, yine de yakın olabilir; ama normalden uzak olsa bile, hala standart bir sapma var.

Ayrıca, "tek taraflı" standart sapma yoktur - hipotez testleri (tek taraflı veya iki taraflı olabilir) düşünüyor olabilirsiniz. Başlığınızda, ortalama 0 olduğunu söylüyorsunuz, ancak ortalama mesafe 0 olmayacak (toplar 40 top yüksekliğinde bir yığının içinde olmadıkça!) Ve sınırlar olduğunu söylüyorsunuz - sınırlar olabilir, eğer toplar düşürülürse o zaman merkezden en yakın duvara olan mesafeden daha uzak olamazlar. Ancak bazı toplar duvara çarpmadığı sürece, bu bir şeyleri etkilemez.

Böylece, 40 mesafeye sahip olduğunuzda standart sapmaları (ve ortalama, medyan, çeyrekler arası aralık vb.) Standart yöntemler kullanarak hesaplarsınız. Ayrıca kabaca normal olarak dağıtılıp dağıtılmadığını (ilgiliyse) görmek için mesafenin çizimlerini de yapabilirsiniz (örn. Kantil normal grafik, kutu grafik).


Teşekkürler Peter, kendimi doğru ifade etmedim. Açıklığa kavuşturayım: Yukarıdaki sahneyi hayal edin. Ortalama mesafeyi hesaplarsınız, kütle merkezinin etrafında bir daire olarak gösterilir (ortalama mesafe = yarıçap). Şimdi, +/- std sapması daha küçük bir daire ve daha büyük bir daire verecektir. Kütle merkezine ortalama uzaklığın standart sapmasını bilmek istemiyorum, aksine kütle merkezinden dışa doğru standart sapmayı bilmek istiyorum. Başka bir deyişle, kütle merkezinden hangi yarıçap içinde yer alan topların% 68.2'sidir (bir standart sapma).
K_scheduler

Ah tamam. O zaman bu bir istatistik problemi değil matematik problemi; % 68,2'nin nereye düşeceğinin bulunması biliniyor ... Cevabı unuttum ama içeriyorπ.
Peter Flom

İlk cevabınızda doğru olabilirsiniz. Bulduğumdan, radyal standart sapmayı kullanmak hile yapmalıdır. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler

1

Bu sorulduğundan beri bir süre geçti, ancak sorunun cevabı, bunun Rayleigh dağılımı olarak adlandırılan 2D dağıtım olduğu. Burada, Rayleigh şekil faktörünün hem X hem de Y koordinatlarının standart sapmalarına eşit olduğu varsayımıdır. Uygulamada, şekil faktörünün değeri, X ve Y'nin standart sapmasının birleştirilmiş ortalamasından hesaplanacaktır.

ile başlayan

XN(μx,σx2)
, ve
YN(μy,σy2)

iki değişkenli normal dağılım kullanır.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

noktaya çevir

(μx,μy)
ve varsay
ρ=0
.

Ayrıca varsayalım ki

σx2=σy2
bu yüzden ikisini de
σ2

daha sonra 2-B dağılımı yarıçap etrafındaki nokta olarak ifade edilir

(μx,μy)
Rayleigh dağılımı olarak bilinir .

PDF(r;σ)=rσ2exp(r22σ2)
nerede
σ=σx=σy
ve
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Tabii ki bu sürekli dağıtım içindir. Sadece 40 topun bir örneği için kesin bir çözüm yoktur. 40 topluk bir örnekle Monte Carlo Analizi yapmanız gerekir. Taylor, MS & Grubbs, Frank E. (1975). "Aşırı Dağılım için Yaklaşık Olasılık Dağılımları" , Chi dağılımı için tahminler buldu ve bunun için log-normal bir numunenin dağılımına uyacaktır.


Düzenleme - Wuber'ın şüphesine rağmen, hesapladığı teorik oranlar şunlardır:

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

CDF işlevinden r (sigma cinsinden) kümülatif Sigma değerleri aşağıdakilere eşittir:

0-1, 0-2, 0-3, ..., 0-10

şunlardır:

0.3935, 0.6321, 0.7769, 0.8647, 0.9179, 0.9502, 0.9698, 0.9817, 0.9889, 0.9933


Dağıtımı adlandırdığınız için teşekkür ederiz. Bununla birlikte, (1) dağılımın parametresi ile verilerden türetilen bu parametrenin tahminleri arasında ayrım yapmamak , (2) topların dağıtımı hakkında gerekli (güçlü) varsayımları belirtmemek ve (3) belirsiz olarak, yanıltıcı okuyucular. Gerçekten de, “bu” nuzun referansının ne olduğu belli değil: topların konumlarının dağılımı olacak mı? (Hayır.) Kütle merkezinin dağılımı? (Evet, ancak topların standart sapmasından farklı bir ölçek parametresi ile.) Cevabınızı netleştirmek ister misiniz?
whuber

boşlukları doldurdu ....
MaxW

Açıklamalar için teşekkürler, Max. Cevabınızın doğruluğunu basit bir kontrol olarak, yerine bir top düşünelim40. Cevabınız, bu top ile tüm topların kütle merkezi arasındaki mesafenin bir Rayleigh dağılımı olduğunu iddia ediyor gibi görünüyor. Ne yazık ki, bu durumda mesafe her zaman sıfırdır. (Soru özellikle bunu "basit geometri kullanılarak hesaplanan kütle merkezinden her topa olan mesafe" olarak tanımlamaktadır.) Bu, cevabınızın her durumda,40topları.
whuber

Dağılım kütle merkezi ile ilgilidir.
MaxW

CDF elbette bir top için ayarlanmıştır. CDF'den topların% 39'u σ yarıçapı, 2σ içinde% 86 ve 3σ içinde% 99 düşecektir.
MaxW

-1

Hem normal hem de negatif değerler olan normal dağılım, bu normal dağılımın yarıçap veya "merkezden uzaklık" için olduğunu fark ederseniz mantıklıdır. Diğer değişken olan açı rastgele ve 0-pi'den eşit olarak dağılmış


Asla negatif olamayacak olan yarıçapın kesinlikle Normal bir dağılımı olmayacaktır !
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.