Bir “saf bootstrap” in başarısız olduğu örnekler nelerdir?


86

Bilinmeyen bir veya karmaşık dağılımından örnek verilerin bir dizi var ve ben bir istatistik bazı çıkarım gerçekleştirmek istediğiniz varsayalım T verilerinin. Benim varsayılan eğim sadece değiştirme ile önyükleme örneklerinin bir demet oluşturur ve benim istatistik hesaplamaktır T için tahmini dağılımını oluşturmak için her önyükleme numunede T .

Bunun kötü bir fikir olduğu örnekler nelerdir?

Örneğin, bu önyükleme işlemini saf bir şekilde gerçekleştirmenin başarısız olacağı bir durum, önyükleme zaman çizelgesi verilerinde önyükleme kullanmaya çalışıyorsam (örneğin, önemli bir otomatik korelasyona sahip olup olmadığımı test etmek için). Naif önyükleme (üreten yukarıda açıklanan i benim orijinal zaman serisinin yapıyı görmezden beri, (Sanırım) tedbirsiz olacağını benim orijinal seriden yerine koyarak örnekleme yoluyla n'inci önyükleme numune serisinin inci Datapoint) ve bu yüzden blok bootstrap gibi meraklısı bootstrap teknikleri olsun.

Başka bir deyişle, "değiştirme ile örnekleme" nin yanı sıra önyüklemede ne var?


Kimlik bilgileri için çıkarım yapmak istiyorsanız, bootstrap harika bir araçtır. Geriye kalan her şey sorgulanabilir ve vakaların zayıf yakınsama kanıtlarını gerektiriyor.
StasK

Yanıtlar:


67

Genellikle bir dağıtımın işlevselliği olan ilgi miktarı makul derecede pürüzsüzse ve verileriniz tanımlanmışsa, genellikle oldukça güvenli bir bölgedesiniz demektir. Tabii ki, bootstrap'in işe yarayacağı başka durumlar da var.

Önyüklemenin "başarısız olması" ne demek

Genel olarak konuşursak, önyüklemenin amacı, ilgilenilen istatistik için yaklaşık bir örnekleme dağılımı oluşturmaktır. Parametrenin gerçek tahmini ile ilgili değil. Dolayısıyla, ilgilenilen istatistik (bazı ölçeklendirme ve merkezleme altında) ve ise, dağıtımımızın dağılımını istiyoruz. dağılımına yakınsama . Eğer buna sahip değilsek, o zaman yapılan çıkarımlara güvenemeyiz. X nXXX^nX^nXX

Bir önyüklemenin ne zaman başarısız olabileceğine ilişkin kanonik örnek, hatta bir iid çerçevesinde bile aşırı sıra istatistiklerinin örnekleme dağılımına yaklaşmaya çalışırken. Aşağıda kısa bir tartışma.

Bir dağılımından rastgele bir örneğin maksimum sipariş istatistiğiU[0,θ]

'da dot'ların iid düzgün rastgele değişkenler dizisi olmasına izin verin . Let . Dağılımı olan (Çok basit bir argümanla, bunun aslında olasılık içinde olduğunu ve rastgele değişkenlerin hepsinin aynı alanda tanımlanmış olması durumunda neredeyse kesin olduğunu gösterir.)X1,X2,[0,θ]X(n)=max1knXkX(n)

P(X(n)x)=(x/θ)n.
X(n)θ

Temel bir hesaplama veya başka bir deyişle, dağılımda ortalama ile üstel bir rasgele değişkeni birleştirir .

P(n(θX(n))x)=1(1xθn)n1ex/θ,
n(θX(n))θ

Şimdi, bir (naif) oluşturan önyükleme dağılımının tahmin yeniden örnekleyerek almak için değiştirme ile ve dağılım kullanılarak arasında şartına .n(θX(n))X1,,XnX1,,Xnn(X(n)X(n))X1,,Xn

Ancak, olasılıklı olduğunu ve bu nedenle önyükleme dağılımının asimptotik olmasına rağmen sıfırda bir nokta kütlesine sahip olduğunu gözlemleyin. Gerçek sınırlayıcı dağılımın sürekli olduğu gerçeği.X(n)=X(n)1(11/n)n1e1

Gerçek sınırlayıcı dağıtım ortalama ile üstel olsa Daha açık , sınırlayıcı önyükleme dağılımı, bir yerleştirir noktası kütle büyüklüğü sıfırdan gerçek değerinden bağımsız . yeterince büyük alarak , herhangi bir sabit aralık için herhangi bir sabit aralık için keyfi sınırlama olasılığını küçük yapabiliriz , ancak önyükleme ( hala !) Bu aralıkta en az 0,632 ihtimal olduğunu bildirir! Bundan, bootstrap'ın bu ortamda keyfi olarak kötü davranabileceği açık olmalıdır .θ1e10.632 θθ[0,ε)

Özetle, bu durumda önyükleme başarısız olur (sefil bir şekilde). Parametre boşluğunun kenarındaki parametrelerle uğraşırken işler ters gitmeye meyillidir.

Normal rastgele değişkenler örneğinden bir örnek

Önyüklemenin şaşırtıcı şekilde basit koşullarda başarısızlığa uğramasına benzer başka örnekler de var.

den bir örnek örneğini göz önünde bulundurun burada için parametre alanı ile sınırlandırılır . Bu durumda MLE, . Yine, önyükleme tahmini tahminini kullanırız . Yine, (gözlenen numuneye bağlı) dağılımının aynı sınırlayıcı dağılıma yakınlaşmadığı gösterilmiştir. .X1,X2,N(μ,1)μ[0,)X^n=max(X¯,0)X^n=max(X¯,0)n(X^nX^n)n(X^nμ)

Değiştirilebilir diziler

Belki de en çarpıcı örneklerden biri değiştirilebilir bir dizi içindir. Let rastgele değişkenlerin bir dizi olarak bu için, bu her permütasyon çiftinin matrisleri ve , dizileri ve dizileri aynı eklem dağılımına sahiptir. Yani, satırlarına ve sütunlarına izin vermek dağıtımı değişmez tutar. (Örnek çok daha genel olmasına rağmen, hücre başına bir gözlemle iki yönlü rastgele etkiler modelini düşünebilirsiniz.)Y=(Yij)PQYPYQY

Diyelim ki, ortalaması için bir güven aralığı tahmin etmek istediğimizi varsayalım . hücreler aynı olmalıdır).μ=E(Yij)=E(Y11)

McCullagh (2000), böyle bir diziyi önyüklemenin iki farklı doğal (yani saf) yolunu düşünmüştür. Bunlardan hiçbiri, örnek ortalamasının asimptotik varyansını doğru alamaz. Ayrıca tek yönlü değiştirilebilir bir dizi ve doğrusal regresyonun bazı örneklerini göz önünde bulunduruyor.

Referanslar

Ne yazık ki, konu önemsiz olduğu için bunların hiçbiri özellikle kolay okunamıyor.

P. Bickel ve D. Freedman, Önyükleme için bazı asimptotik teori . Ann. Stat. , vol. 9, hayır. 6 (1981), 1196-1217.

DWK Andrews, Parametre alanı sınırında bir parametre olduğunda bootstrap tutarsızlığı , Econometrica , vol. 68, hayır. 2 (2000), 399-405.

P. McCullagh, Yeniden örnekleme ve değiştirilebilir diziler , Bernoulli , vol. 6, hayır. 2 (2000), 285-301.

EL Lehmann ve JP Romano, İstatistiksel Hipotezlerin Test Edilmesi , 3.. ed., Springer (2005). [Bölüm 15: Genel Büyük Örnek Yöntemler]


Üstel dağılımın sıfırda benzer bir "nokta kütlesi" olduğu göz önüne alındığında, sipariş istatistiklerinin önyükleme davranışı benim için makul gözüküyor - Üstel bir dağılımın modu 0, yani olasılıkın sıfırda olmaması gerektiği gibi görünüyor. en muhtemel değer! Önyükleme muhtemelen, üstelin ayrı bir analoğu olan geometrik bir dağılım gibi daha fazla bir şey olacaktır. Buradaki önyüklemenin bir "başarısızlığı" olarak kabul etmem - bu nedenle, tahmini miktarı her zaman uygun aralıkta bulunurθθX(n)
olasılık

1
@ cardinal - asimptotik dağılım uygun bir kriter değildir - sonsuz bir numuneniz yoksa. Önyükleme dağılımı, yaklaşık olarak tasarlandığı sonlu örnek dağılımı ile karşılaştırılmalıdır. Göstermek istediğiniz, önyükleme yinelemelerinin sayısı sonsuzluğa giderken, önyükleme dağıtımı sonlu örnekleme dağılımına yakınlaşıyor . icar yaklaşık çözüm değildir tam biridir. n
probabilityislogic

5
@cardinal +1, daha önce soruyu yanıtladım, ancak yazılara çok iyi bir cevap, örnekler ve bağlantılar için teşekkür etmek istiyorum.
mpiktas

@probabilityislogic, elbette genel olarak asimptotik teori uygulaması yakınsaklık oranına bağlıdır, eğer yavaş ise, o zaman uygulanabilir değildir. Ancak, oranın düşük olduğunu kanıtlamak zorundasınız, çünkü örneğin 100 beden örneklemini alan tek tip bir dağıtımla, ana hatlarıyla belirtilen problemlerle karşılaşacağınızdan şüpheliyim.
mpiktas

3
@probabilityislogic, ilk başta, sadece son iki yorumunun sonuncusunu gördüm. Birincisine hitap etmek için, yukarıdaki bölümün ilk iki cümlesini, açıkça ön plana çıkan "Önyükleme işleminin 'başarısız olması' ne demek" başlığı ile görebilirsiniz. Önyükleme parametresi tahmin etmek değildir. İstenen parametreyi tahmin etmenin iyi bir yolunun olduğunu varsayıyoruz (bu durumda, çalışıyor). Önyükleme, çıkarım yapmamız için parametrenin dağılımı hakkında bir şeyler bilmektir . Burada, bootstrap dağılımı ( çok! ) Yanlış alır. X(n)
kardinal

8

Aşağıdaki kitapta "Önyükleme İhtilafları ile Birlikte Başarısız Olduğunda" ile ilgili bir bölüm bulunmaktadır (Bölüm 9):

MR Chernick, Önyükleme yöntemleri: Uygulayıcılar ve araştırmacılar için bir rehber , 2. baskı. Hoboken NJ: Wiley-Interscience, 2008.

Konular:

  1. Örnek Boyutu Çok Küçük
  2. Sonsuz Momentli Dağılımlar
  3. Aşırı Değerlerin Tahmini
  4. Anket Örnekleme
  5. Are Veri Diziler M Bağımlı
  6. Kararsız Otoregressif İşlemler
  7. Uzun Menzilli Bağımlılığı

1
Bu yorumu bu konudaki bir cevaba mı gördünüz ? Bu arada, bu yorum Chernick'in kitabı için bir Amazon sayfasına link veriyor; okuyucu değerlendirmeleri aydınlatıcıdır.
whuber

@whuber Bu yorumu farketmedim. Cevabımı kaldırmalı mıyım?
Sadeghd

1
Cevabınız yorumdaki referanstan daha ayrıntılı olduğu için, potansiyel olarak bir değeri vardır: ancak SE politikalarına ve amaçlarına uygun olarak, bu kitabı neden önerdiğinizi açıklayan bir açıklama ile güçlendirilmiş olarak görmek - ya da daha iyi - İçindeki bilginin bir özetini eklemek için. Aksi halde, çok az şey ekler ve silinerek veya soruya yapılan bir yoruma dönüştürülmelidir.
whuber

1

Saf önyükleme, örnek boyutunun büyük olmasına bağlıdır, böylece veriler için ampirik CDF, "gerçek" CDF'ye iyi bir yaklaşımdır. Bu, deneysel CDF'den örneklemenin, "gerçek" CDF'den örneklemeye benzemesini sağlar. En uç durum, yalnızca bir veri noktasını örneklediğiniz zamandır - önyükleme burada hiçbir şey yapmaz. Bu dejenere olaya yaklaştığından daha da işe yaramayacak.

Nadiren önyükleme, zaman serileri analizinde mutlaka başarısız olmayacaktır (verimsiz olmasına rağmen) - serisi, bir trend bileşeni için sürekli zamanın temel fonksiyonlarını (böyle bir efsane polinomları) ve döngüsel zamanın sürekli zamanının sinüs ve kosinüs fonksiyonlarını kullanarak modellerseniz bileşenleri (artı normal gürültü hatası terimi). O zaman sadece olabilirlik fonksiyonuna örneklediğiniz zamanları koyun. Burada bootstrapping için felaket yok.

Herhangi bir oto-korelasyon veya ARIMA modelinin yukarıda bu formatta bir temsili vardır - bu modelin kullanımı sadece daha kolaydır ve anlamayı ve yorumlamayı düşünüyorum (bir ARIMA modelinin katsayılarını anlamak zor olan sinüs ve kosinüs fonksiyonlarındaki döngüleri anlamak kolaydır). Örneğin, oto-korelasyon fonksiyonu, bir zaman serisinin güç spektrumunun ters Fourier dönüşümüdür.


@probabilityislogic -1, cevabı yanlışlıkla daha önce aştım (Opera mini'yi suçluyordum), bu yüzden indirgemek için düzenlemek zorunda kaldım, bu tür taktikleri kullandığım için üzgünüm. Bunu sadece ilk başta cevabı beğenmediğim için yaptım, ancak yorum yapmadı çünkü argümanlarımı hazırlamak istiyorum.
mpiktas

1
Zaman serisi için @probabilityislogic, zaman önemli bir rol oynar, yani vektör dağılımı işler farklıdır . Saf önyüklemede yapılan yeniden örnekleme bu yapıyı tahrip eder, bu nedenle, örneğin AR (1) modelini takmaya çalışırsanız, yeniden örneklemeden sonra u olarak çalıştığınızı ; doğal görünmüyor. Eğer "önyükleme süresi dizisi" için google Eğer ikinci yazı ... zaman serilerinin varyans tahmini sahiptir nasıl örnek verir(Xt,Xt+1)(Xt+1,Xt)Y10ρY15
mpiktas

2
Eğer naif önyükleme tahmin için yanıtında fikrinizi göstermek için @probabilityislogic mümkün olacağını AR (1) modeli de ? Bunun mümkün olduğunu sanmıyorum, bu yüzden aşağı indirmenin temel nedeni bu. Yanlış kanıtlandığına sevinirim. ρYt=ρYt1+ut
mpiktas

1
@probabilityislogic ve? Bu durumda tahmini ne olacak ? Pestering için özür dilerim, ama gerçekten saf önyüklemenin bu durumda nasıl başarısız olacağını gösteremeyeceğini gerçekten göremiyorum. rho
mpiktas

4
Buradaki kitabım , önyüklemenin ne zaman başarısız olduğu ve ayrıca önyüklemenin zaman serilerinde nasıl uygulandığına dair bir bölüm içeriyor. Zaman serileri için, önyükleme modeli temelli modeldeki bir modelden kalanlara uygulanabilir. Diğer parametrik olmayan zaman alanı yaklaşımı, birçok türde olduğu blok önyüklemesidir.
Michael Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.