Belirsizlikler ile çeşitli ölçümlerin standart sapması


13

1 Hz (7200 ölçüm) örnekleme oranına sahip 2 saatlik iki GPS verim var. Veriler biçiminde verilir ; burada ölçüm belirsizliğidir.(X,Xσ,Y,Yσ,Z,Zσ)Nσ

Tüm ölçümlerin ortalamasını aldığımda (örneğin, bu iki saatlik ortalama Z değeri), standart sapması nedir? Elbette Z değerlerinden standart sapmayı hesaplayabilirim, ancak daha sonra bilinen ölçüm belirsizlikleri olduğu gerçeğini ihmal ediyorum ...

Düzenleme: Verilerin hepsi aynı istasyondan ve tüm koordinatlar her saniye yeniden ölçülür. Uydu takımyıldızları vb. Nedeniyle, her ölçümün farklı bir belirsizliği vardır. Analizimin amacı harici bir olaydan (yani bir deprem) kaynaklanan yer değiştirmeyi bulmaktır. Depremden önce 7200 ölçüm için ortalama (2 saat) ve depremden sonra 2 saat için başka bir ortalama almak ve daha sonra ortaya çıkan farkı (örneğin yükseklik) hesaplamak istiyorum. Bu farkın standart sapmasını belirlemek için, iki aracın standart sapmasını bilmem gerekir.


3
İyi soru. Daha da önemlisi, veriler zamanla güçlü bir şekilde korelasyon gösterecektir: bu, cevap üzerinde ölçüm belirsizliğindeki varyasyondan daha derin bir etkiye sahip olacaktır.
whuber

Whuber'ın yorumunu ve Deathkill14'ün cevabını alarak, bize düzgün cevap verebilecek kadar bilgi vermediniz. ölçümlerindeki hataların nasıl çalıştığını bilmek önemlidir . Örneğin, ölçüm hatası 3 saniyede pozitifse, 4 saniyede pozitif olma olasılığı daha fazla / daha azdır --- yani seri korelasyon var mı? İkincisi, hata 3 saniyede pozitifse, ve / veya hatanın 3 saniyede pozitif olması daha fazla / daha az olası mıdır? 2 saniyede mi? 4 saniyede mi? X,Y,ZXXYZ
Bill

Biraz farklı bir soru ile ilgili: ölçüm hatası ne kadar sistematiktir? Diyelim ben "Evet, dedi benim ön çim biraz yüksek ölçüldü. edilir hemen her zaman benim ön çim biraz yüksek ölçtü." Bu çılgın bir ifade olur mu? Ölçüm hatası, belirli bir yerin çok sık çok yüksek olacağı şekilde çalışıyor mu, başka bir yerin çok sık çok düşük olabileceği gibi, vb. "Yoksa hatalar geçici mi?XX
Bill

@Bill: Kesinlikle seri korelasyon var. Ölçüm hataları iki saat boyunca hemen hemen sabittir. Bununla birlikte, genellikle verilerden hesaplanan standart sapmadan daha büyüktür, bu da beni bu soruya yönlendirdi.
traindriver

Sorunuz hala seri korelasyonun varlığını açık bir şekilde ifade etmiyor. Ne yazık ki, sizin için olabildiğince yararlı olmayan, dikkatlice oluşturulmuş üç cevabınız var.
Glen_b

Yanıtlar:


7

Bu soruya verilen önceki yanıtların biraz işaret dışı olabileceğinden şüpheleniyorum. Bana öyle geliyor ki, orijinal posterin burada sorduğu şey, "bir dizi vektör ölçümü göz önüne alındığında:" şeklinde ifade edilebilir: ile ve ölçüm kovaryansı :i=1,2,3,. . . ,7200Ci=( X 2 σ , i 0 0 0 Y 2 σ , i 0 0 0 Z 2 σ , i )

θi=(XiYiZi)
i=1,2,3,...,7200
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
bu vektör ölçümleri serisi için kovaryans ağırlıklı ortalamayı doğru bir şekilde nasıl hesaplayabilirim ve daha sonra standart sapmasını nasıl doğru bir şekilde hesaplayabilirim? "Bu sorunun cevabı, fizik bilimleri istatistiklerinde uzmanlaşmış birçok ders kitabında bulunabilir. Özellikle sevdiğim bir örnek Frederick James, "Deneysel Fizikte İstatistiksel Yöntemler" , 2. baskı, World Scientific, 2006, Bölüm 11.5.2, "Bağımsız tahminleri birleştirme", s. 323-324. skaler değerleri için varyans ağırlıklı ortalama hesaplamasını açıklayan daha başlangıç ​​seviyesinde metin (yukarıda gösterildiği gibi tam vektör miktarlarının aksine) Philip R. Bevington ve D. Keith Robinson, "Fizik Bilimleri için Veri Azaltma ve Hata Analizi ", 3. baskı, McGraw-Hill, 2003, Bölüm 4.1.x, "Verilerin Ağırlıklandırılması - Düzgün Olmayan Belirsizlikler". Posterin sorusunun bu durumda diyagonalleştirilmiş bir kovaryans matrisi olduğu (yani, tüm diyagonal olmayan elemanlar sıfır olduğu), problem aslında üç bireye ayrılabilir (yani, X, Y, Z) skaler ağırlıklı ortalama problemleri, Bevington ve Robinson analizi burada da aynı şekilde geçerlidir.

Genel olarak, stackexchange.com sorularına yanıt verirken, normalde daha önce çok sayıda ders kitabında sunulan uzun türevleri yeniden paketlemenin yararlı olduğunu düşünmüyorum - eğer malzemeyi gerçekten anlamak ve cevapların neden göründüğünü anlamak istiyorsanız Bu şekilde gerçekten ders kitabı yazarları tarafından yayınlanan açıklamaları okumanız yeterlidir. Bunu göz önünde bulundurarak, doğrudan başkalarının zaten verdiği cevapları yeniden belirtmek için atlayacağım. Frederick James, ayarından ağırlıklı ortalama: ve ağırlıklı ortalamanın kovaryansı:N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Bu cevap tamamen geneldir ve ne olursa olsun geçerli olacaktır çapraz olmayan ölçüm kovaryans matrisleri için bile biçimidir .Ci

Bu nedenle ölçüm kovaryanslar olur yana olan bu özel durumda diyagonal Bevington ve Robinson analizi de birey için sapmaların hesaplanması-ağırlıklı aracı için de kullanılabilir , , ve . Skaler cevabın şekli, vektör cevabının şekline benzer: ve varyans veya eşdeğeri, ve benzer şekildeXiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanve . Skaler değerli vaka için aynı cevaba ulaşan kısa bir wikipedia girişi burada mevcuttur .Zmean,Zσ,mean

Belki biraz belirsizdim, bu yüzden biraz daha bilgi ekledim. Ölçümlerimi ağırlıklandırmam gerektiğini düşünmüyorum.
traindriver

1
Evet yaparsın. Bir düşünce deneyi gibi aşırı bir durumu düşünün: 7200 yerine sadece 2 GPS ölçümünüz olduğunu varsayalım. Ayrıca, GPS ölçümlerinden birinin +/- 5 feet'lik bir belirsizliğe sahip olduğunu ve diğerinin + / / - 5 mil. Belirsizlik sayısı kelimenin tam anlamıyla ölçümün ne kadar yanlış olabileceğini gösterir. Bu, +/- 5 mil değerinin en azından birkaç mil uzakta olacağı anlamına gelir. Bu sayıyı gerçekten herhangi bir anlamlı şekilde ortalamanıza eklemek istiyor musunuz? Ağırlıklı ortalama, güvenilir olmaması gereken değerleri iskonto etmenizi sağlar.
stachyra

1
BTW, cevabımın başka bir şey daha var: Orijinal yayında, doğrudan Z değerlerinden hesaplanan örnek standart sapmayı kullanmak istememenizin nedeninin, bu durumda, kendi ifadelerinizle, "bilinen ölçüm belirsizlikleri olduğunu ihmal edin". Cevabım (aslında sizinle paylaştığım belirsiz ders kitabı cevabı), bilinen ölçüm belirsizliklerini tam olarak istediğiniz gibi kullanır. Sadece bilgileri beklediğinizden daha fazla yerde (ortalama sonuç ve standart sapma) kullanır.
stachyra

Beni ikna ettin.
traindriver

6

Bu, bayes çıkarımı kullanılarak kolayca çözülmelidir. Her bir noktanın gerçek değerlerine göre ölçüm özelliklerini biliyorsunuz ve gerçek değerleri üreten popülasyon ortalamasını ve SD'yi çıkarmak istiyorsunuz. Bu hiyerarşik bir model.

Sorunu yeniden silme (Bayes hakkında temel bilgiler)

Ortodoks istatistiklerin size tek bir ortalama verirken, bayes çerçevesinde ortalamanın güvenilir değerlerinin bir dağılımını elde edersiniz. Örneğin, SD'lerle (2, 2, 3) gözlemler (1, 2, 3) Maksimum Olabilirlik Tahmini 2 ile değil, aynı zamanda ortalama 2.1 veya 1.8 ile de oluşturulmuş olabilir, ancak verilerden biraz daha az olasıdır. MLE. SD'ye ek olarak , ortalamayı da çıkarıyoruz .

Bir diğer kavramsal fark, gözlem yapmadan önce bilgi durumunuzu tanımlamanız gerektiğidir . Buna öncelikler diyoruz . Belirli bir alanın belirli bir yükseklik aralığında tarandığını önceden biliyor olabilirsiniz. Bilginin tamamen yokluğu, X ve Y'de önceki gibi eşit (-90, 90) dereceye ve belki de yükseklikte (okyanusun üstünde, dünyadaki en yüksek noktanın altında) eşit (0, 10000) metre olacaktır. Tahmin etmek istediğiniz tüm parametreler için önceki dağılımları tanımlamanız gerekir , yani arka dağılımlar elde etmelisiniz . Bu standart sapma için de geçerlidir.

Bu nedenle, sorununuzu yeniden ifade ederek, üç yöntem (X.mean, Y.mean, X.mean) ve üç standart sapma (X.sd, Y.sd, X.sd) için güvenilir değerler çıkarmak istediğinizi varsayıyorum. verilerinizi oluşturdu.

Model

Standart BUGS sözdizimini kullanarak (bunu çalıştırmak için WinBUGS, OpenBUGS, JAGS, stan veya diğer paketleri kullanın), modeliniz şöyle görünecektir:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Doğal olarak, .mean ve .sd parametrelerini izler ve posteriorlarını çıkarsama için kullanırsınız.

Simülasyon

Bunun gibi bazı verileri simüle ettim:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Ardından, 500 yinelemenin yanmasından sonra 2000 yinelemeleri için JAGS kullanarak modeli çalıştırdı. İşte X.sd sonucu.

X.sd için posterior

Mavi aralık% 95 En Yüksek Arka Yoğunluk veya Güvenilir aralığı gösterir (parametrenin verileri gözlemledikten sonra olduğuna inanırsınız. Ortodoks bir güven aralığının size bunu sağlamadığını unutmayın).

Kırmızı dikey çizgi ham verilerin MLE tahminidir. Genellikle Bayes kestiriminde en olası parametrenin, ortodoks istatistiklerde de en olası (maksimum olabilirlik) parametresi olması durumudur. Ancak posteriorun üstünü çok fazla önemsememelisiniz. Tek bir sayıya kaynatmak istiyorsanız ortalama veya medyan daha iyidir.

MLE / top 5 değerinde değildir, çünkü veriler yanlış istatistikler nedeniyle değil rastgele oluşturulur.

Limitiations

Bu, şu anda birkaç kusuru olan basit bir modeldir.

  1. -90 ve 90 derecenin kimliğini işlemez. Ancak bu, tahmini parametrelerin uç değerlerini (-90, 90) aralığına kaydeden bir ara değişken yapılarak yapılabilir.
  2. X, Y ve Z şu anda muhtemelen birbirleriyle ilişkili olmalarına rağmen bağımsız olarak modellenmiştir ve verilerden en iyi şekilde yararlanmak için bu dikkate alınmalıdır. Ölçüm cihazının hareket ettiğine (seri korelasyon ve X, Y ve Z'nin eklem dağılımı size çok fazla bilgi verecektir) veya hareketsiz kalmasına (bağımsızlık iyi) bağlıdır. İstenirse buna yaklaşmak için cevabı genişletebilirim.

Uzamsal Bayes modelleri hakkında bilgili olmadığım birçok literatür olduğunu belirtmeliyim.


Bu cevap için teşekkürler. Sabit bir istasyondan alınan verilerdir, ancak bu verilerin bağımsız olduğu anlamına mı gelir?
traindriver

@traindriver Size yardımcı olabilmemiz için karşılaştığınız çıkarım sorunu hakkında daha fazla bilgi vermeniz gerekiyor. Sorunuzu, en azından (1) tekrar tekrar ölçülen miktarla aynı olduğunu belirten bir "güncelleme" bölümü ile genişletebilirsiniz. Yani aynı koordinat. Yoksa taranan bir alan mı yoksa ... (2) neden ortalama ve sd'yi çıkarmak istiyorsunuz? Eğer bu bir alansa, SD'yi bir çarpıklık tahmini veya bunun gibi bir şey olarak kullanmak isteyebilirsiniz.
Jonas Lindeløv

Orijinal yayına biraz daha bilgi ekledim.
traindriver

3

Öncelikle biraz gösterim yaptım ve bahsettiğiniz basit yaklaşımı kullanarak sorunu ayarladım. Sonra daha ileri gidin. Ben kullanacağı Verdiğin vektör Z başvurmak için.z

Açık sözlü ölçüm hatası olmayan aşağıdaki modeli düşünün: , burada nin tahmini ortalama değeridir ve , Z'nin gerçek ortalama değeridir. Burada verilerinizdeki hataların bir vektörüdür ve örneğiniz büyükse , . Sadece gözlemlenen değerlerini alır ve ortalama alırsanız, edersiniz ve örnek standart sapmayı hesaplarsanız elde edersiniz , gerçek popülasyon standart sapmasının tahminiZ¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ . Ölçüm hatası hakkında bazı bilgilerden yararlanmak isterseniz ne olur?

İlk olarak, ilk modeli şu şekilde yeniden formüle edebileceğimizi unutmayın: , burada bir vektördür ve son olarak . Şimdi bu gerçekten gerilemeye benziyor, ama yine de temelde sadece tahmini . Böyle bir gerileme yaparsak, standart hatası için bir tahmin alırız , bu neredeyse istediğimiz şeydir - bu, nin standart hatasından başka bir şey değildir (ancak yine de hesaba katmak istiyoruz) ölçüm hatası).1 β ˉ Z μ Z ϵ zz=1β+ϵ1βZ¯μZϵz

Karma bir model elde etmek için ilk modelimizi artırabiliriz. , burada rastlantısal etkilerin bir vektördür ve ilgili olarak etkilediği belirlenmiştir için . Herhangi bir rastgele efektte olduğu gibi, dağılımı hakkında bir varsayım yapmanız gerekecektir . için ölçüm hatasının dağılımı olduğu doğru mu?u Q z u u Z σ zz=1β+Qu+ϵuQzuuZσz? Evetse, bu rastgele etkilerin dağılımını sağlamak için kullanılabilir. Tipik olarak, temel karışık efektler modellemesi yapmak için kullanılan yazılımlar rastgele efektlerin normal bir dağılıma sahip olduğunu varsayar (ortalama 0 ... ile) ve sizin için varyansı tahmin eder. Belki de konsepti test etmek için bunu deneyebilirsiniz. Ölçüm hatasının dağılımı ile ilgili önceden bilgilerinizi kullanmak isterseniz, Bayes karışık efekt modeli sipariş edilmelidir. R2OpenBUGS kullanabilirsiniz.

Bu modeli tahmin ettikten sonra, artıklar için aldığınız standart hata, ilgilendiğinizi ifade ettiğiniz standart hatadır. Sezgisel olarak, modelin rastgele efektler bileşeni, ölçüm olduğunu bildiğiniz için açıklayabileceğiniz bazı varyasyonları emiyor. hata. Bu, varyasyonu hakkında daha alakalı bir tahmin elde etmenizi sağlarϵϵϵ

Ölçüm hatasını açıklamak için bu rastgele efekt yaklaşımı hakkında daha derin bir tartışma için bu makaleye bakın . Durumunuz yazarların ve ölçüm hatası bozuk sürümü için tanıttıkları duruma benzer . 4. Bölümdeki örnek, durumunuzla ilgili bazı bilgiler verebilir.WDW

Whuber tarafından belirtildiği gibi, verilerinizdeki otokorelasyonu hesaba katmak isteyebilirsiniz. Rastgele efektler kullanmak bu sorunu çözmez.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.