Daha önce verilen verilerin geçerliliğini test edebilir miyim?


10

Sorun

Bilgilendirilmiş bir ön ve veri verilen bir posterior yoğunluğu tahmin etmek için Bayes analizi yapan bir R fonksiyonu yazıyorum. Kullanıcının öncekini yeniden düşünmesi gerekiyorsa işlevin bir uyarı göndermesini istiyorum.

Bu soruda, bir önceliğin nasıl değerlendirileceğini öğrenmekle ilgileniyorum. Önceki sorular bilgilendirilmiş öncelikleri ( burada ve burada ) belirtme mekaniğini kapsamıştır .

Aşağıdaki durumlar, öncekinin yeniden değerlendirilmesini gerektirebilir:

  • veriler, önceki durumu belirtirken dikkate alınmayan aşırı bir durumu temsil eder
  • verilerdeki hatalar (örneğin, önceki veriler kg cinsindeyken veriler g birimlerinde ise)
  • yanlış önceki koddaki bir hata nedeniyle bir dizi kullanılabilir öncelik arasından seçildi

İlk durumda, öncelikler genellikle veri değerleri desteklenmeyen bir aralıkta değilse (örneğin logN veya Gamma için <0), verilerin genellikle bunalmasına yetecek kadar dağınıktır. Diğer durumlar hata veya hatalardır.

Sorular

  1. Bir önceliği değerlendirmek için verilerin kullanılmasının geçerliliği ile ilgili bir sorun var mı?
  2. bu soruna en uygun test var mı?

Örnekler

Burada, (kırmızı) veya (mavi) popülasyonlarından geldikleri için, daha önce bir eşleşmeyen iki veri kümesi vardır .lÖgN-(0,1)N-(0,5)N-(8,0.5)

Mavi veriler geçerli bir önceki + veri kombinasyonu olabilirken kırmızı veriler negatif değerler için desteklenen bir önceki dağıtım gerektirir.

resim açıklamasını buraya girin

 set.seed(1)
 x<- seq(0.01,15,by=0.1)
 plot(x, dlnorm(x), type = 'l', xlim = c(-15,15),xlab='',ylab='')
 points(rnorm(50,0,5),jitter(rep(0,50),factor =0.2), cex = 0.3, col = 'red')
 points(rnorm(50,8,0.5),jitter(rep(0,50),factor =0.4), cex = 0.3, col = 'blue')

Yanıtlar:


4

"Önceki" ile ne demek istediğinizi netleştirmeniz gerekir. Örneğin, İngiltere'de yaşam beklentisi hakkındaki önceki inancımla ilgileniyorsanız, bu yanlış olamaz. Benim inancım! Gözlenen verilerle tutarsız olabilir, ancak bu tamamen başka bir konudur.

Bağlam da önemlidir. Örneğin, bir şeyin nüfusuyla ilgilendiğimizi varsayalım. Önceden bu miktarın kesinlikle negatif olmaması gerektiğini iddia ediyor. Ancak veriler hatalı gözlenmiştir ve negatif ölçümlerimiz mevcuttur. Bu durumda, önceki geçersiz değildir, yalnızca gizli işlem için öncedir.

Sorularınızı cevaplamak için,

  1. Bir önceliği değerlendirmek için verilerin kullanılmasının geçerliliği ile ilgili bir sorun var mı?

Bir safkan, verileri iki kez kullanmamanız gerektiğini savunur. Ancak, pragmatik kişi ilk etapta önceki hakkında yeterince düşünmediğinizi kabul eder.

2 Bu soruna en uygun test var mı?

Bu gerçekten dikkate alınan modele bağlıdır. Sanırım en temelde önceki aralığı veri aralığıyla karşılaştırabilirsiniz.


Cevabınız için teşekkürler, özellikle # 1 yardımcı olur. Test için bunu düşünmüştüm, ancak çoğu önceliğin aralığı bir bağlı olacak , bu yüzden belki de kantil aralıkların sınırlarını karşılaştırmayı düşünüyordum, örneğin şu durumlarda uyarı gönderin: 80'inci kantil> 99. kantil önceki veya if: herhangi bir veri 100-10e-log (n) th quantile daha büyük olmasına rağmen ben doğru hataları yakalamak böylece sayılar ile oynamak zorunda kalacaktı.
David LeBauer

3

İşte iki sentim:

  1. Oranlarla ilişkili önceki parametreler hakkında endişelenmeniz gerektiğini düşünüyorum.

  2. Önceden bilgilendirici hakkında konuşuyorsunuz, ancak sanırım kullanıcıları bilgilendirici olmayan makul bir önceki şey hakkında uyarmalısınız. Demek istediğim, bazen sıfır ortalama ve 100 varyanslı bir normal oldukça bilgi vermez ve bazen kullanılan ölçeklere bağlı olarak bilgilendiricidir. Örneğin, yüksekliklerde (santimetre) maaşları yukarıda belirtilenlerden daha fazla geriliyorsanız oldukça bilgilendiricidir. Bununla birlikte, yüksekliklerde (metre) log ücretlerine geriliyorsanız, yukarıdaki bilgiler o kadar bilgilendirici değildir.

  3. Önceki bir analizden kaynaklanan bir öncekini kullanıyorsanız, yani yeni öncekinin aslında önceki bir analizin eski bir posteriori olması durumunda işler farklıdır. Bu durumun not olduğunu varsayıyorum.


1. maddeyi açıklığa kavuşturabilir misiniz? re: point 2, OP'de belirtildiği gibi, öncekinin nasıl ayarlanacağı hakkında bu soru ile ilgilenmiyorum; 3. nokta: Bilgilendirilmiş önceliklerin çoğu, mevcut verilerin analizinden (verilere uygun bir dağılımın uydurulması), diğerleri ise uzman bilgisine dayanmaktadır (bunlar genellikle daha az kısıtlıdır).
David LeBauer

Aşağıdaki gibi bir model taktığınızı varsayın: y ~ a + b * x / z. Z değerleri üzerinde herhangi bir kısıtlama yoksa (pozitif veya negatif olabilirlerse), b'den gelen sinyal hakkında ne beklediğini bilmek zordur. Dahası, Z sıfıra yakın olabiliyorsa, b çok düşük veya çok büyük olabilir. Bu, önceki mantıksız olabilir. Bu girişi Gelman'ın
Manoel Galdino

# 3: Belirtildiği gibi, verileri iki kez kullanma konusunda dikkatli olun. Örneğin ince, hiyerarşik bir modeldir ve bir diğeri de olasılıkla uyumlu olan bir öncekini seçmektir. Daha sonra böyle bir analizle ilgilenirim. Öncekinin seçimini bir düzenleme aracı olarak görüyorum.
Manoel Galdino
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.