Belirsizlik önyükleme tahminlerine ilişkin varsayımlar


62

Belirsizlik tahminlerinin elde edilmesinde önyüklemenin kullanışlılığını takdir ediyorum, ancak beni her zaman rahatsız eden şey, bu tahminlere karşılık gelen dağılımın örnek tarafından tanımlanan dağıtım olmasıdır. Genel olarak, örnek frekanslarımızın tam olarak altta yatan dağılıma benziyor olduğuna inanmak kötü bir fikir gibi gözüküyor, bu nedenle örnek frekansların altta yatan dağılımı tanımladığı bir dağılıma dayalı belirsizlik tahminlerini türetmek neden ses / kabul edilebilir?

Öte yandan, bu genellikle yaptığımız diğer dağıtım varsayımlarından daha kötü (muhtemelen daha iyi) olmayabilir, ancak yine de gerekçeyi biraz daha iyi anlamak istiyorum.


3
Göz atmak isteyebileceğiniz birkaç soru var. Bazıları bu sayfanın kenar boşluğunda listelenmiştir. İşte önyükleme başarısız için ne anlama geldiğini başarısız olur ve ne zaman ilişkin biridir.
kardinal

Yanıtlar:


55

Birinin önyükleme bandını makul bir şekilde uygulamasının birkaç yolu vardır. En temel iki yaklaşım "parametrik olmayan" ve "parametrik" önyükleme olarak adlandırılan şeylerdir. İkincisi, kullandığınız modelin (esas olarak) doğru olduğunu varsayar.

Birincisine odaklanalım. F dağılım fonksiyonuna göre dağıtılmış rastgele bir örneğine sahip olduğunuzu varsayacağız . (Aksi varsayarak modifiye yaklaşımlar gerektirir.) Let F , n ( x ) = n - 1 Σ n i = 1 1 ( X ıx ) olduğu deneysel kümülatif dağılım fonksiyonu. Önyükleme için motivasyonun çoğu birkaç gerçekden geliyor.X1,X2,...,XnFF^n(x)=n-1Σben=1n1(Xbenx)

Dvoretzky – Kiefer – Wolfowitz eşitsizliği

P(yudumxR,|F^n(x)-F(x)|>ε)2e-2nε2.

Bunun gösterdiği gibi, ampirik dağılım fonksiyonu olasılıkta üstel olarak hızlı bir şekilde gerçek dağıtım fonksiyonuna düzgün bir şekilde yaklaşır . Gerçekten de, Borel-Cantelli birleşen bu eşitsizlik derhal hemen hemen kesinlikle.yudumxR,|F^n(x)-F(x)|0

Bu yakınsamayı garanti altına almak için formunda ek bir koşul yoktur .F

Bazı fonksiyonel ilgileniyorsanız Heuristically, o zaman, olan dağılım işlevinin düzgün , o zaman biz bekliyoruz yakın olmak için ., T ( F , n ) , T ( F )T(F)T(F^n)T(F)

(Noktasal)F^n(x)

Beklentinin basit doğrusallığı ve tanımları ile , her ,xRF^n(x)xR,

EFF^n(x)=F(x).

Diyelim ki ortalama ile ilgileniyoruz . Daha sonra ampirik ölçünün tarafsızlığı, ampirik ölçünün doğrusal işlevselliklerinin tarafsızlığına kadar uzanır. Dolayısıyla, D K , T ( F , n ) = E F ˉ X , n = μ = T ( F )μ=T(F)

EFT(F^n)=EFX¯n=μ=T(F).

Yani ortalama olarak doğru ve hızla yaklaşıyor , sonra (sezgisel olarak), hızla yaklaşıyor .T(F^n)Fn^FT(F^n)T(F)

Bir güven aralığı oluşturmak için ( temel olarak önyüklemenin neyle ilgili olduğu ), merkezi limit teoremini, ampirik kuantillerin tutarlılığını ve delta yöntemini basit doğrusal fonksiyonallerden daha karmaşık ilgi istatistiklerine geçmek için araçlar olarak kullanabiliriz. .

İyi referanslar

  1. B. Efron, Önyükleme yöntemleri: Jackknife'ye başka bir bakış , Ann. Stat. , vol. 7, hayır. 1, 1–26.
  2. B. Efron ve R. Tibshirani, Önyüklemeye Giriş , Chapman-Hall, 1994.
  3. GA Young ve RL Smith, İstatistiksel Çıkarımın Temelleri , Cambridge University Press, 2005, Bölüm 11 .
  4. AW van der Vaart, Asimptotik İstatistik , Cambridge Üniversitesi Yayınları, 1998, Bölüm 23 .
  5. P. Bickel ve D. Freedman, Önyükleme için bazı asimptotik teori . Ann. Stat. , vol. 9, hayır. 6 (1981), 1196-1217.

Çok güzel, @cardinal (+1).

Açık bir açıklama, referanslar verilen, mükemmel cevap.
vesszabo

12

İşte bunu düşünmek için farklı bir yaklaşım:

Doğru dağılımı bildiğimiz teori ile başlayın, gerçek dağılımdan simüle ederek örnek istatistiklerin özelliklerini keşfedebiliriz. Gosset, bilinen normlardan örnek alarak ve istatistiği hesaplayarak t-dağılımını ve t testini geliştirmiştir. Bu aslında parametrik önyüklemenin bir şeklidir. İstatistiklerin davranışını keşfetmek için simüle ettiğimizi unutmayın (bazen parametrelere göre).

Şimdi, eğer nüfus dağılımını bilmiyorsak, ampirik dağılımdaki dağılımın bir tahminine sahibiz ve bundan örnek alabiliriz. Ampirik dağılımdan (bilinen) örnekleme yaparak bootstrap örnekleri ve ampirik dağılım arasındaki ilişkiyi görebiliriz (bootstrap örneği için popülasyon). Şimdi, bootstrap örneklerinden ampirik dağılıma olan ilişkinin, örneklemden bilinmeyen popülasyona olanla aynı olduğu sonucuna varıyoruz. Elbette bu ilişkinin ne kadar iyi çevrildiği, örneklemin popülasyonun ne kadar temsili olduğuna bağlı olacaktır.

Unutmayın ki bootstrap örneklerinin popülasyon ortalamasını tahmin etmek için kullanmıyoruz, bunun için örnek ortalamayı kullanıyoruz (veya ilgilenilen istatistik ne olursa olsun). Ancak, örnekleme işleminin özelliklerini (yayılma, önyargı) tahmin etmek için önyükleme örneklerini kullanıyoruz. Ve örneklemenin etkilerini öğrenmek için bilinen bir popülasyondan (ilgilenen popülasyonun temsilcisi olduğunu umduğumuz) örneklemeyi kullanmak mantıklı ve çok daha az daireseldir.


8

Bootstrapping işleminin temel hilesi (ve acı) asimptotik bir teori olduğudur: başlamak için sonsuz bir örneğiniz varsa, ampirik dağılım, farkın ihmal edilebilecek gerçek dağıtıma o kadar yakın olacaktır.

Maalesef, ön yükleme genellikle küçük örneklem boyutlarında uygulanır. Yaygın his, bootstrapping'ın asimptotik olmayan bazı durumlarda çalıştığını gösterdi, ancak yine de dikkatli olun. Eğer örneklemeniz çok küçükse, aslında numuneniz üzerinde, gerçek dağılımın 'iyi bir temsili' olarak koşullu olarak çalışıyorsunuz ki bu da çevrelerde kolayca akıl yürütmeye neden olur :-)


Düşündüğüm gibi oldu, ama bu akıl yürütmeyle ilgili bir döngü var. Ben bir istatistikçi değilim, ama benim fikrim tahmincileriniz hızla birleştiğinde istatistiksel çıkarımın işe yaramasıydı, bu nedenle numuneniz dağılıma yaklaşmadığında bile, çıkarımlarınız sağlam. Bu durumda, gerçek dağıtıma yaklaşmak için tüm emprikyal dağıtıma güveniyoruz. Belki bazı önyükleme tahminlerinin hızlı bir şekilde birleştiğini tahmin eden teoremler var, ancak genel olarak bu teoremlere uymadan uygulanan ön yükleme işlemlerini görüyorum.
user4733

4
Belirgin dairesel muhakeme, neden bootstrap olarak adlandırıldığının nedenidir. İnsanların kendilerini önyükleme ayaklarıyla kaldırmaya çalıştıklarını hissettim. Daha sonra Efron gerçekten işe yaradığını gösterdi.
Greg Snow

Eğer örneklem büyüklüğü gerçekten çok küçükse, kullandığınız yöntem ne olursa olsun çok fazla güvenmeniz gerekir ...
kjetil b halvorsen

5

"Asimptotik olarak, ampirik dağılımın gerçek dağılıma yakın olacağını" (ki, elbette çok doğrudur) perspektifinden değil, "uzun dönem perspektifinden" savunuyorum. Başka bir deyişle, herhangi bir özel durumda, önyükleme işleminden türetilen ampirik dağılım kapalı olacaktır (bazen çok fazla kaydırılmış, bazen çok fazla kaydırılmış, bazen çok fazla bükülmüş, bazen çok fazla bükülmüş), ama ortalama olarak Gerçek dağıtım için iyi bir yaklaşım olacaktır. Benzer şekilde, önyükleme dağılımından elde edilen belirsizlik tahminleriniz herhangi bir durumda kapalı olacak, ancak yine de ortalama olarak (yaklaşık) doğru olacaklar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.