Önyükleme neden yararlıdır?


13

Yaptığınız tek şey ampirik dağılımdan yeniden örneklemekse, neden sadece ampirik dağılımı incelemek değil? Örneğin, değişkenliği tekrarlı örnekleme yoluyla incelemek yerine, neden sadece ampirik dağılımdaki değişkenliği ölçmüyoruz?


6
" (Bu anlamda), bootstrap dağılımı parametremiz için (yaklaşık) parametrik olmayan, bilgilendirici olmayan bir posterior dağılımı temsil eder. Ancak bu bootstrap dağılımı ağrısız bir şekilde elde edilir - posterior dağılımdan bir örnek belirtmek zorunda kalmadan ağrısız bir şekilde elde edilir. bootstrap dağılımını “yoksul adamın” Bayes posterior'u olarak düşünebiliriz. Hastie ve ark. İstatistiksel Öğrenmenin Öğeleri ". Bölüm 8.4.
usεr11852

8
Ampirik dağılımdan tahminlerimizin belirsizliğini nasıl ölçebiliriz?
usεr11852

2
"Hafif düzenlilik koşulları altında, bootstrap en azından birinci dereceden asimptotik teoriden elde edilen yaklaşım kadar doğru olan bir tahmin edicinin veya test istatistiğinin dağılımına bir yaklaşım verir". unc.edu/~saraswat/teaching/econ870/fall11/JH_01.pdf .
jbowman

10
Tartışıyorsunuz, anlamaya çalışmıyorsunuz. İnanın bana, önyüklemenin kırk yıl boyunca binlerce istatistikçinin değersiz bir tersi olduğunun farkına varmadınız. Alıntıyı dikkatlice okumadınız. Bence istatistiklerde rasgeleliğin oynadığı kilit rolü kavrayamadınız. "Neden rahatsız !!" gibi ifadeler "( un bir dağılımını almak ... sıradışı, en azından söylemek gerekirse. Tahminlerinizin dağılımını anlamanın önemli olduğunu düşünmüyorsanız, istatistik alanının neden var olduğunu düşünmek isteyebilirsiniz hiç düşünmeyin ve yeniden düşünün.T(X)
jbowman 16 Mart'ta 16

4
"Her numune eşlerseniz @ztyh Söyleyecek için Eğer bir dağılım elde ". Belki de bunu düşünmelisiniz, tek bir noktasını nasıl ? Ya da bu konudaki herhangi bir işlev . T ( X ) T ( X ) X i T ( X ) = ˉ X T ( X 1 , X 2 , X n )XT(X)T(X)XiT(X)=X¯T(X1,X2,Xn)
knrumsey

Yanıtlar:


18

Önyükleme (veya başka bir yeniden örnekleme), bir istatistiğin dağılımını tahmin etmek için deneysel bir yöntemdir.

Çok basit ve kolay bir yöntemdir (sadece istatistiğin istenen dağılımını elde etmek, tahmin etmek için örnek verilerin birçok rastgele varyantı ile hesapladığınız anlamına gelir).

Büyük olasılıkla, 'teorik / analitik' ifadeyi elde etmek / hesaplamak çok zor olduğunda kullanırsınız (veya aksakal'ın bazen bilinmediği gibi).

  • Örnek 1: Bir pca analizi yaparsanız ve değişkenlerde korelasyon olmadığı hipotezi göz önüne alındığında sonuçları 'özdeğerlerin sapma tahminleri' ile karşılaştırmak isterseniz .

    Verileri defalarca karıştırabilir ve özdeğerler için bir dağılım (örnek verilerle rastgele testlere dayalı olarak) elde edeceğiniz şekilde pca özdeğerlerini yeniden hesaplayabilirsiniz.

    Mevcut uygulamaların bir dağınıklık planına baktığını ve belirli bir öz değerin önemli / önemli olup olmadığına 'karar vermek' için başparmak kurallarını uyguladığını unutmayın.

  • Örnek 2: f işlevi için bir grup parametre tahmini sağlayan doğrusal olmayan bir regresyon y ~ f (x) yaptınız. Şimdi bu parametreler için standart hatayı bilmek istiyorsunuz .

    OLS'de olduğu gibi artıklara ve doğrusal cebire bazı basit bakışlar burada mümkün değildir. Bununla birlikte, parametrelerin nasıl değişeceği hakkında bir fikir edinmek için aynı regresyonu birçok kez kalıntılar / hatalar ile birçok kez hesaplamaktır (hata terimi için dağılım gözlenen artıklar tarafından modellenebilir).


Yazan: StackExchangeStrike


2
Bence senin örneğin bir bootstrap değil. Bilinen bir sıfır dağılımından sadece örneklemesi. Bootstrap, bir örneğinizin olduğu yerdir ve bu örnekten tekrar tekrar numune alır.
ztyh

3
Sorunuzda, gerçekten basit olan ve önyükleme gerektirmeyen bir örneğin varyansını hesaplamayı hayal ediyorsunuz. Örneğimde, örnekten türetilen bir değere sahip olduğumuz bir durum hakkında konuşuyorum. O zaman artık sadece bir varyansı hesaplayamayız, yine de nasıl değiştiğini bilmek istiyoruz. Verileri defalarca karıştırıp pca özdeğerlerini yeniden hesaplayarak, örneğinizin dağılımını takip eden böyle bir dağıtım (rastgele) veri elde edebilirsiniz. Yanılmıyorsam Eğer bu bir önyükleme denir.
Sextus Empiricus

Tamam, nerede yanlış anlama yaptığımı görüyorum. Örneğiniz mantıklı. Teşekkürler.
ztyh

8

Önemli olan, önyüklemenin gerçekten verilerin dağıtımının özelliklerini bulmak değil , verilere uygulanan bir tahmincinin özelliklerini bulmaktır .

Ampirik dağıtım işlevi gibi bir şey, verilerin geldiği CDF hakkında oldukça iyi bir tahmin söyleyecektir ... ancak izole ederek, bu verilerden oluşturduğumuz tahmin edicilerin ne kadar güvenilir olacağı konusunda size hiçbir şey söylemez. Bu, bootstrap kullanılarak cevaplanan sorudur.


1
"Verilerin dağılımını" bulmak için (parametrik olmayan) bootstrap kullanmak gülmek olacaktır: sadece analistin başladığı veri seti olan ampirik dağılım fonksiyonu ile ortaya çıkar. "X için çözeceğim" ve "X = X" bulduğumda bana üniversite cebirini hatırlatıyor.
AdamO

3

Altta yatan dağılımın tam olarak ne olduğunu biliyorsanız, o zaman çalışmanıza gerek yoktur. Bazen, doğal bilimlerde dağılımı tam olarak bilirsiniz.

Dağıtımın türünü biliyorsanız, sadece parametrelerini tahmin etmeniz ve kastedilen anlamda çalışmanız gerekir. Örneğin, bazen altta yatan dağılımın normal olduğu bir önsez bilirsiniz. Bazı durumlarda bunun ne anlama geldiğini bile biliyorsunuz. Yani, normal olarak, keşfedilecek tek şey standart sapmadır. Örnek standart sapmayı örnekten alırsınız, ve çalışma için dağıtımı elde edersiniz.

Dağıtımın ne olduğunu bilmiyorsanız, ancak listedeki birkaç taneden biri olduğunu düşünüyorsanız, bu dağıtımı verilere sığdırmaya ve en uygun olanı seçmeye çalışabilirsiniz. O zaman bu dağılımı inceliyorsunuz.

Nihayet, genellikle uğraştığınız dağıtım türünü bilmiyorsunuz. Ve bunun R'nin verilerinize uyabileceği 20 dağıtımdan birine ait olduğuna inanmak için bir nedeniniz yok. Ne yapacaksın? Tamam, ortalama ve standart sapmalara bakıyorsunuz, güzel. Ama ya çok çarpıksa? Ya basıklığı çok büyükse? ve bunun gibi. Bilmek ve incelemek için dağıtımın tüm anlarını gerçekten bilmeniz gerekir. Yani, bu durumda parametrik olmayan önyükleme kullanışlı olur. Ondan çok ve basit bir örnek almazsınız, sonra anlarını ve diğer özelliklerini inceleyin.

Parametrik olmayan önyükleme büyülü bir araç olmasa da sorunları var. Örneğin, önyargılı olabilir. Parametrik önyüklemenin tarafsız olduğunu düşünüyorum


1
Gerçek dağılımı bilmeseniz bile, birçok anın hesaplanması kolaydır. Bu yüzden sorunun, uğraştığınız dağıtım türünü bilmemekle ilgili olmadığını düşünüyorum. Bunun yerine, ne tür bir istatistik okumaya çalıştığınızla ilgilidir. Bazı istatistiği hesaplamak zor olabilir ve ancak o zaman bootstrap yararlıdır.
ztyh

Usεr11852 sorusuna yapılan yorumda olduğu gibi, aslında istatistiklerin hesaplanabilirliği açısından da faydaları hakkında şüphelerim var ...
ztyh

Aslında bunun hala bir beyinsiz olduğunu düşünüyorum. Her örneği . Sonra kantil bulmak yine 1 satırlık bir koddur. Yani toplamda 2 satır kod. ln(x3+x)
ztyh

1
kantil aptalca bir örnekti, sana vereceğim. bunun yerine ortalama deneyin. benim uygulamada veya daha karmaşık fonksiyonlar tahmin etmeliyim ki burada bilinmeyen bir eklem dağılımından geliyor. Son tahminin özelliklerini almam gerekiyor. anlarla deneyin. önyükleme ile beyin değil. f ( x , z ) x , zxzf(x,z)x,z
Aksakal

1
Karmaşık nasıl zamankinden belki, yapmanız gereken tek şey örneklerini haritasına olan ve için . Sonra bu haritalanmış örnekleri inceleyin. Önyükleme kullanabiliyorsanız, bu bunu yapabileceğiniz anlamına gelir ve bu çok daha kolay ...x z f ( x , z )fxzf(x,z)
ztyh
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.