Önyükleme yeniden örnekleme, bir veri kümesinin varyansı için bir güven aralığını hesaplamak için kullanılabilir mi?


9

Bir veri kümesinden birçok kez yeniden örnekleme yapar ve her seferinde ortalama hesaplarsanız, bu yolların normal bir dağılımı (CLT tarafından) takip edeceğini biliyorum. Böylece, veri kümesinin olasılık dağılımı hakkında herhangi bir varsayımda bulunmadan veri kümesinin ortalaması üzerinde bir güven aralığı hesaplayabilirsiniz.

Varyans için benzer bir şey yapıp yapamayacağınızı merak ediyordum. Yani, bir veri kümesinden birçok kez yeniden örneklemem ve her seferinde varyansı hesaplasaydım, bu varyanslar belirli bir dağılımı izler miydi (veri kümesinin orijinal olasılık dağılımının ne olduğuna bakılmaksızın)?

Bu orijinal veri seti normalse, varyansların ki kare dağılımını izleyeceğini biliyorum. Ama normal olmadığı durumda ne olacak?

Yanıtlar:


10

Önyükleme Yeniden Örnekleme bir Veri Kümesinin Varyansı için Güven Aralığını Hesaplamak için Kullanılabilir mi?

Evet, diğer birçok istatistikte olduğu gibi.

Bir veri kümesinden birçok kez yeniden örnekleme yapar ve her seferinde ortalama hesaplarsanız, bu yolların normal bir dağılımı (CLT tarafından) takip edeceğini biliyorum.

Önyükleme yaparsanız, ortalama bir önyükleme aracı, CLT'nin uygulandığı dağıtımlar için bile normal bir dağılımı izleyecektir.

Burada , boyutunda bir örnek için ortalamayı yeniden örneklediğim, 10000 kez yeniden örneklediğim bir örnek :n=100

resim açıklamasını buraya girin

Uzaktan normal değil.

Orijinal örnek doksan yedi '0' değerinden ve bir '1', '2' ve '100' değerlerinden oluşur.

Yukarıdaki grafiği oluşturmak için koştum (R) kodu İşte:

 x <- c(rep(0,97),1,2,100)
 y <- replicate(10000,mean(sample(x,replace=TRUE)))
 plot(table(y),type="h")

Sorun şu ki, bu durumda numune boyutu (100), CLT'nin bu tür bir dağıtım şekliyle uygulanamayacak kadar küçük olması; kaç kez yeniden örneklediğimiz önemli değil.

Bununla birlikte, orijinal numune boyutu çok daha büyükse, bunun gibi bir şey için numune aracının yeniden örnekleme dağılımı daha normal görünecektir (her zaman ayrık olsa da).

Yukarıdaki verileri (siyah) yeniden örneklerken ve aynı oranlarda ancak on kat daha fazla değer (kırmızı; yani n = 1000) olan değerler için ekdfs:

resim açıklamasını buraya girin

Gördüğümüz gibi, büyük numuneyi yeniden örneklerken dağıtım işlevi çok daha normal görünüyor.

bir veri kümesinden birçok kez yeniden örneklemem ve her seferinde varyansı hesaplasaydım, bu varyanslar belirli bir dağılımı izler miydi

Hayır, aynı nedenden ötürü ortalama için doğru değildir.

Ancak CLT, varyans * için de geçerlidir; sadece CLT'nin sadece birçok örnek alarak bootstrap yeniden örneklemesi için geçerli olduğunu iddia edemezsiniz. Eğer orijinal numune boyutu yeterince büyükse (varsa, ve daha yüksek momentler), bu eğilimi (uygun koşullar altında), nispeten yakın küçük numunelerde dağıtımına göre olan normal bir dağılıma (üzere aracının yeniden örnekleme dağıtım yapmaya olabilir en az).

* olduğunu düşünüyorsanız genellikle varyans için geçerli olduğunu (uygun anların var olduğu varsayılarak) sezgisel olduğunu . Let ; o zaman , yani CLT - uygulanıyorsa, uygulanabilir . Şimdi sadece ölçekli bir versiyonudur ; CLT için , . Bununla birlikte, bu argümanın ana hatları tamamen sağlam değildir ve ilk başta beklemeyebileceğiniz bazı istisnalar vardır.sn2=1ni=1n(xix¯)2yi=(xix¯)2sn2=y¯ysn2sn12sn2sn2sn12

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.