Parametrik ve parametrik olmayan önyükleme ile ilgili sorular


14

Kevin Murphy'nin " Makine Öğrenmesi - Olasılıklı Bir Bakış Açısı " kitabından Sık İstatistikler bölümünü okuyorum . Bootstrap bölümü şu şekildedir:

Bootstrap, örnekleme dağılımını yaklaşık olarak tahmin etmek için basit bir Monte Carlo tekniğidir. Bu özellikle tahmin edicinin gerçek parametrelerin karmaşık bir fonksiyonu olduğu durumlarda kullanışlıdır.

Fikir basit. Biz gerçek parametreleri bilseydik , birçok (diyelim oluşturabilir S ) sahte veri kümelerini, boyut, her N gerçek dağıtım, gelen, x_i ^ s \ sim p | (· θ ^ *) için, s = 1: S, i = 1 = N . Daha sonra tahmincimizi her bir örnekten hesaplayabiliriz, \ hat {\ theta ^ s} = f (x ^ s_ {1: N}) ve elde edilen örneklerin ampirik dağılımını örnekleme dağılımı tahminimiz olarak kullanabiliriz. Yana \ teta bilinmemektedir, fikri parametre ön-yükleyici kullanarak örnekleri oluşturmak için \ şapka {\ teta} (D) yerine.θSNxisp(·|θ)s=1:S,i=1:Nθs^=f(x1:Ns)θθ^(D)

Parametrik olmayan bootstrap adı verilen bir alternatif, orijinal veri D' den xis ( yedekli) örneklemek ve daha sonra indüklenen dağılımı daha önce olduğu gibi hesaplamaktır. Büyük veri setlerine uygulandığında önyüklemeyi hızlandırmak için bazı yöntemler tartışılmıştır (Kleiner ve ark. 2011).D

  • 1 . Metin şöyle diyor:

    Gerçek parametreleri \ theta ^ * biliyorsak, θtahmincimizi her örnekten hesaplayabiliriz, θs^ ...

        Ben eğer ama neden her numunenin tahmincisi kullanmak istiyorsunuz zaten gerçek parametreleri biliyoruz θ ?

  • 2 . Ayrıca, burada ampirik dağılım ile örnekleme dağılımı arasındaki fark nedir?

  • 3 . Son olarak, bu metindeki parametrik ve parametrik olmayan önyükleme arasındaki farkı tam olarak anlamıyorum . Her ikisi de anlaması gözlemler setinden , ama tam olarak ne fark var?DθD

Yanıtlar:


15

Miura tarafından verilen cevap tamamen doğru değil, bu yüzden ben bu eski soruya gelecek kuşak için cevap veriyorum:

(2). Bunlar çok farklı şeyler. Ampirik cdf, verileri üreten CDF'nin (dağılım) bir tahminidir. Kesinlikle, gözlenen her veri noktasına olasılık atayan ayrı CDF'dir , , her . Bu tahminci , her bir ( kesinlikle eşit olarak) gerçek : .K ( X ) = 11/nx F (x)F(x)=P(xix)xF^(x)=1ni=1nI(Xix)xF^(x)F(x)=P(Xix)x

Bir istatistiğin örnekleme dağılımı , bunun yerine tekrarlanan deneyler altında görmeyi beklediğiniz istatistiğin dağılımıdır. Yani, denemenizi bir kez yaparsınız ve verileri toplarsınız . , verilerinizin bir işlevidir: . Şimdi, denemeyi tekrarladığınızı ve verilerini topladığınızı varsayalım . Yeni örnekte T'nin yeniden hesaplanması, . 100 numune toplasaydık, 100 tahminimiz olurdu . Bu gözlemler, örnekleme dağılımı meydanaX 1 , , X n TTX1,,XnTXT=T(X1,,Xn) T=T(X1 ,,Xn )TTTE(T)Var(T)X1,,XnT=T(X1,,Xn)TTT. Gerçek bir dağıtımdır. Deney sayısı sonsuzluğa gittikçe, ortalaması ve varyansı birleşir .E(T)Var(T)

Genel olarak böyle deneyleri tekrarlamıyoruz, sadece bir örneği görüyoruz . a priori'nin temel olasılık işlevini bilmiyorsanız, varyansının tek bir gözlemden ne olduğunu bulmak çok zordur . Önyükleme bu örnekleme dağılımını tahmin etmek için bir yöntemdir yapay yeni örneklerini hesaplamak için hangi "yeni deneyler" çalıştırarak . Her yeni örnek aslında orijinal verilerden sadece bir örnektir. Bunun orijinal verilerden daha fazla bilgi sağlaması gizemli ve tamamen harika.T T T TTTTTT

(1). Haklısın - bunu yapmazdın. Yazar, parametrik bootstrap'ı "dağıtımı biliyor olsaydınız ne yapacağınızı" olarak tanımlayarak ama dağıtım fonksiyonunun çok iyi bir tahmincisini (ampirik cdf) değiştirerek tanımlamaya çalışıyor.

Örneğin, test istatistik biliyorum varsayalım normalde ortalaması sıfır, varyansı biri ile dağıtılmaktadır. örnekleme dağılımını nasıl tahmin edersiniz ? Dağılımını bildiğiniz için, örnekleme dağılımını tahmin etmenin aptalca ve gereksiz bir yolu, 10.000 veya daha fazla standart normal rasgele değişken üretmek için R'yi kullanmak, sonra örnek ortalamalarını ve varyanslarını almak ve bunları ortalama ve örnekleme dağılımının değişimi .T TTTT

Biz ise yok önsel parametreleri biliyorum , ama biz normalde dağıtılan biliyoruz, bunun yerine ne yapabileceğini 10.000 veya ampirik cdf alınan numuneler böylece oluşturmak olduğunu hesapla bunların her biri üzerinde, sonra örnek ortalamasını almak ve bu 10.000 varyansı ve bunları beklenen değeri ve varyansının tahminleri olarak kullanın . Ampirik cdf, gerçek cdf'nin iyi bir tahmincisi olduğundan, örnek parametrelerin gerçek parametrelere yakınsamaları gerekir. Bu parametrik bootstrap: tahmin etmek istediğiniz istatistik üzerinde bir model oluşturuyorsunuz. Model, ecdf'den tekrarlanan örneklemeden tahmin ettiğiniz bir parametre, örneğin ile endekslenir.T T T ( μ , σ )TTTT(μ,σ)

(3). Parametrik olmayan bootstrap, normal olarak dağıtıldığı bir önsezi bilmenizi bile gerektirmez . Bunun yerine, ecdf'den tekrarlanan örnekleri çiziyor ve her birinde hesaplıyorsunuz . 10.000 ya da öylesine örnekleri çizilmiş ve 10.000 hesaplanan sonra ler, kendi tahminlerinin histogramı belirleyebiliriz. Bu, örnekleme dağılımının bir görselleştirmesidirT T TTTTT. Parametrik olmayan önyükleme, örnekleme dağılımının normal veya gama vb. Olduğunu söylemez, ancak örnekleme dağılımını (genellikle) gerektiği gibi tahmin etmenizi sağlar. Parametrik önyüklemeden daha az varsayım yapar ve daha az bilgi sağlar. Parametrik varsayım doğru olduğunda daha az kesindir, yanlış olduğunda daha doğrudur. Karşılaştığınız her durumda hangisini kullanacağınız tamamen bağlama bağlıdır. Kuşkusuz, daha fazla insan parametrik olmayan bootstrap'a aşinadır, ancak genellikle zayıf bir parametrik varsayım, tamamen zor bir modeli tahmin etmeye uygun hale getirir, bu da güzeldir.


1
Ben parametrik bootstrap açıklamanız hakkında kafam karıştı "yerine bunun yerine ampirik cdf 10.000 kadar örnek üretmek" Parametrik bootstrap anlayışım verilere uygun bir modelden örnek olacak olmasıdır. Murphy kitabındaki orijinal alıntı budur. Yanlış okuyor olabilirim, ancak verilerin ampirik CDF'sinden örnekleme, standart önyükleme olan veri noktalarını doğrudan örnekleme, değil mi?
user20160

@ user20160 cevabın "Yerine" yanlış yorumuyorsunuz: parametrik değil, parametrik olmayan bootstrap'ı anlatıyor.
17'de

4

Guest47'nin katkıda bulunduğu çabayı gerçekten takdir ediyorum, ancak bazı ufak yönleriyle cevabına pek katılıyorum. Anlaşmazlıklarımı doğrudan ortaya koymam, daha ziyade bu cevaba yansıtırım.

  1. Birçok durumda, gerçek parametresini zaten bildiğimizde hesaplamak gereksizdir . Bununla birlikte, tahmininde doğruluğuna ve kesinliğine bakmak istediğimizde hala yararlıdır . Ayrıca, alıntıladığınız pasajınızdaki ilk paragraf, kısa bir süre sonra değineceğim "parametrik bootstrap" kavramını daha kolay anlayabilmenizi sağlayacaktır.θ * θ sθ*θ^sθθ^sθ

  2. Guest47 iyi cevap veriyor. Daha fazla detaylandırmaya gerek yok.

  3. Parametrik önyüklemede, gözlenen veriler D'dir. Verilere uyacak bir parametrik model ve gerçek parametreler için (bu da verilerin D'nin bir fonksiyonu olan) tahmin edicileri kullanırsınız . Daha sonra ile parametrik modelden binlerce veri kümesi oluşturursunuz ve bu modeller için tahmin edersiniz . Parametrik olmayan önyüklemede, D, örnek (binlerce kez) üretilen veriler yerine tam olarak D'den kullanılır. İçeride ISTV melerin RWMAIWi'nin * İçeride ISTV melerin RWMAIWi'nin İçeride ISTV melerin RWMAIWi'nin lerθ^θθ^θ^s


2

Ben uzman değilim, ama buna değer:

  1. Çünkü teklifinizin ilk cümlesinde belirtildiği gibi örnekleme dağılımıyla ilgileniyorsunuz.

  2. Ampirik dağılım, sonlu örnekleminizde gördüğünüz dağılımdır. Örnekleme dağılımı, sonsuz sayıda numune almanız durumunda gördüğünüz şeydir.

Cevap veremiyorum 3. Her zaman burada parametrik olmayan bootstrap olarak "the" bootstrap olarak tanımlanan şeyi anladım.

Örnekleme dağılımı kavramını tam olarak kavramadıysanız, burada çok açıklayıcı R koduna sahip gerçekten güzel bir iplik var.


5
Parametrik ve parametrik olmayan önyükleme arasındaki fark, ilkinin tahmin edilen parametre değerlerini kullanarak verilerini (varsayılan) dağılımından üretirken, ikincisi örneklerini gözlemlenen verilerden değiştirilerek örnekleyerek üretmesidir - herhangi bir parametrik model varsayılmaz .
jbowman

@jbowman - "non-parametrik" önyükleme yok altta yatan bir modeli var - bu parametre tahminini motive etmek için kullandığınızdan farklı bir modeldir sadece o.
probabilityislogic

@miura Lütfen cevabınızı tahrip etmeyin. Askerin farklı bir cevap seçmesini istiyorsanız, sorunun altına yorum yapın. Cevabınızın silinmesini istiyorsanız, lütfen işaretleyin ve isteyin.
Glen_b
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.