Ortanca için güven aralığı


40

Medyan ve diğer yüzdelik oranlarda% 95 CI bulmalıyım. Buna nasıl yaklaşacağımı bilmiyorum. Temelde R'yi programlama aracı olarak kullanıyorum.

Yanıtlar:


31

Klasik R veri setine ilişkin bir örnek:

> x       = faithful$waiting
> bootmed = apply(matrix(sample(x, rep=TRUE, 10^4*length(x)), nrow=10^4), 1, median)
> quantile(bootmed, c(.025, 0.975))
2.5% 97.5% 
 73.5    77 

medyanda (73.5, 77) güven aralığı verir.

( Not: Düzeltilmiş sürümü sayesinde John . Ben kullanılan de karışıklığa yol açan, daha önce!)103nrow


7
Bana şüpheli bir şekilde dar görünüyor. library(boot)Bunu onaylamak için fonksiyonlarını kullanarak görünür:> boot.ci (boot (x, fonksiyon (x, i) median (x [i]), R = 1000)) Aralıklar: Level Normal Basic 95% (74.42, 78.22) (75.00 , 78.49) Seviye Yüzde BCa 95% (73.51, 77.00) (73.00, 77.00)
Ocak'ta

2
Bir şey değil, her zaman orijinal N değerini matristeki belirlemeyi tercih ederim çünkü bu, yapabileceğim çeşitli önyükleme boyutları arasında bir sabit. Yani, tipik olarak şunu söylerdim: ncol = uzunluk (x). Hata bu şekilde daha az şansı buluyorum.
John

6
Bu, binom kuantillerini hesap satırının cevabında olduğu gibi hesaplamak için verimsiz bir yoldur .
whuber

30

Diğer bir yaklaşım, binom dağılımının miktarlarını temel almaktadır.
Örneğin:

> x=faithful$waiting
> sort(x)[qbinom(c(.025,.975), length(x), 0.5)]
[1] 73 77

4
Bunun basitliğini seviyorum ... Sonuçlar bootstrap yöntemine yakın.
Dominic Comtois

1
Bu açıkça, sürekli bir durum için önyükleme yapmaktan çok daha etkilidir, ancak bir dezavantaj, bağlı safları hesaba katmamasıdır. Bunun için bir geçici çözüm olduğunu biliyor musunuz?
ali_m

15

Önyükleme yeniden örneklemesini inceleyin. Önyükleme işlevi için R yardımı arayın. Yeniden örnekleme ile verilerinize bağlı olarak, hemen hemen her şey için güven aralıklarını tahmin edebilirsiniz.


Anlaşmak. Bu en iyi yaklaşımdır. Bence biyomedikal bilimlerde kullanıldı.
pmgjones

10
Geleneksel boostrap bu durumda sorunların var gibi gözüküyor olarak nüfus miktarlarını tahmin etmek için düzleştirilmiş bootstrap içine bakarak düşünün - referanslar bulunabilir bu pdf . Teorik Median ile yeni ilgilendiyseniz, Hodges-Lehman tahmincisi - örneğin R'nin wilcox.test(..., conf.int=TRUE)fonksiyonu tarafından sağlandığı gibi - kullanılabilir .
caracal

4

Ve başka yaklaşımlar da var: Biri, devamlılık düzeltmeli bir örnek için uygulanan Wilcoxon Rank Sum testine dayanıyor. R'de bu sağlanabilir:

wilcox.test(x,conf.level=0.95,alternative="two.sided",correct=TRUE)

Ve burada tartışılan medyan için David Olive CI var:

Medyan için CI


1

Qbinom yaklaşımına dayanan sonuç küçük numuneler için doğru değildir. X'in 10 bileşene sahip olduğunu varsayalım. Daha sonra qbinom (c (.025, .975), 10, .5) 2 ve 8 verir. Elde edilen aralık, alt kuyruktaki sıra istatistiklerini simetrik olarak üst kuyruktakilerle işlemez; ya 2 ve 9 ya da 3 ve 8 almalısınız. Doğru cevap 2 ve 9'dur. SAS'ta proc tek değişkenli olup olmadığını kontrol edebilirsiniz. Burada yakalayın, aşağıda ve üstünde, 0,025 olasılıktan daha fazlasına ihtiyacınız yok; düşük kuantil bunu yapmaz, çünkü en azından 0,025'te veya altındadır. Dipten tasarruf edersiniz, çünkü 1 olması gereken sayım, ikinci mertebeden istatistiklerle eşleştirilmeli, 0 sayılmalıdır ve bu nedenle "birer birer kapalı" iptal edilir. Bu tesadüfî iptal en üstte gerçekleşmez ve bu yüzden burada yanlış cevabı alırsınız. Kod sıralama (x) [qbinom (c (.025, .975), uzunluk (x) ,. 5) + c (0,1)] neredeyse çalışır ve .5, diğer nicelikler için güven aralıklarını elde etmek için diğer nicelik değerleri ile değiştirilebilir, ancak P [X <= a gibi bir durum olduğunda doğru olmaz. ] =. 025. Örneğin, bkz. Higgins, Parametrik Olmayan Statisitcs.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.