Nerede bootstrapping - birisi beni başlatmak için basit bir açıklama sağlayabilir?


9

Önyükleme hakkında birkaç okuma girişimine rağmen, her zaman bir tuğla duvara çarpmış gibi görünüyorum. Acaba kimse bootstrapping teknik olmayan makul bir tanım verebilir verebilir?

Bu forumda tam olarak anlayabilmem için yeterli ayrıntı sağlamanın mümkün olmadığını biliyorum, ancak ana hedef ve önyükleme mekanizması ile doğru yönde hafif bir itme çok takdir edilecektir ! Teşekkürler.

Yanıtlar:


8

Bootstrapping üzerindeki Wikipedia girişi aslında çok iyi:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Önyüklemenin uygulanmasının en yaygın nedeni, bir numunenin alındığı temel dağılımın biçiminin bilinmemesidir. Geleneksel olarak istatistikçiler normal bir dağılım (merkezi limit teoremiyle ilgili çok iyi nedenlerle) varsayarlar, ancak normal dağılım teorisi ile tahmin edilen istatistikler (standart sapma, güven aralıkları, güç hesaplamaları vb.) Yalnızca temel nüfus dağılımı normal.

Önyükleme, numunenin kendisini tekrar tekrar örnekleyerek, dağıtımdan bağımsız tahminlere olanak tanır. Geleneksel olarak, orijinal örneğin her bir "yeniden örneği", orijinal örnekteki ile aynı sayıda gözlemi rastgele seçer. Ancak bunlar yedek ile seçilir. Örnekte N gözlemi varsa, her önyükleme yeniden örnekleminde N gözlemi olacaktır, orijinal örneklerin çoğu tekrarlanır ve çoğu dışlanır.

İlgilenilen parametre (örneğin, oran oranı vb.) Daha sonra her önyüklemeli örnekten tahmin edilebilir. Bootstrap'in 1000 kez tekrarlanması, 2.5, 50 ve 97.5. Yüzdelik dilimleri seçerek istatistik üzerinde "medyan" ve% 95 güven aralığının tahmin edilmesine izin verir (örneğin oran oranı).


8

Amerikalı Bilim Adamı, son zamanlarda Cosma Shalizi tarafından bootstrap üzerinde oldukça kolay bir okuma olan ve konsepti kavramak için gerekli olan güzel bir makaleye sahipti .


7

Çok geniş anlamda: sezgi ve adın kökeni ("kendini bootstraps tarafından yukarı çekmek"), bir popülasyon hakkında çıkarımlar çizmek için bir numunenin özelliklerini kullanırken (istatistiksel "ters" problem) çıkarımı), biz hata bekliyoruz. Bu hatanın doğasını bulmak için, numuneye kendi başına bir popülasyon olarak davranın ve ondan numune alırken çıkarımsal prosedürünüzün nasıl çalıştığını inceleyin . Bu bir "ileri" sorun şu: Eğer sample- hakkında tüm bilmek qua- nüfus ve bunun hakkında hiçbir şey tahmin etmek zorunda değilsiniz. Çalışmanız, (a) çıkarımsal prosedürünüzün ne ölçüde taraflı olabileceğini ve (b) prosedürünüzün istatistiksel hatasının boyutu ve doğasını önerecektir. Bu nedenle, orijinal tahminlerinizi ayarlamak için bu bilgileri kullanın. Birçok (ama kesinlikle hepsi değil) durumda, ayarlanmış sapma asimptotik olarak çok daha düşüktür.

Bu şematik açıklama ile sağlanan bir öngörü, önyüklemenin simülasyon veya tekrarlanan alt örnekleme gerektirmediğidir : bunlar sadece popnibus, popülasyon bilindiğinde her türlü istatistiksel prosedürü incelemek için hesaplanabilir olarak izlenebilir yollardır. Matematiksel olarak hesaplanabilen birçok bootstrap tahmini vardır.

Bu cevap Peter Hall'un "Bootstrap ve Edgeworth Expansion" (Springer 1992) kitabına, özellikle de bootstrapping'in "Ana İlkesi" tanımına borçludur.


Bu "orijinal" yaklaşımı seviyorum (wrt. Diğer girişler). Yine de, her zaman bootstrap'ın pratikte neden çalıştığını açıklamakta zorlanıyorum ...
chl

4

Bootstrapping üzerindeki wiki aşağıdaki açıklamayı verir:

Önyükleme, tek bir istatistiğin normalde bir örnekten hesaplanacak birçok alternatif versiyonunu toplamasına izin verir. Örneğin, dünya genelindeki insanların yüksekliği ile ilgilendiğimizi varsayalım. Tüm popülasyonu ölçemediğimizden, bunun sadece küçük bir kısmını örnekliyoruz. Bu örnekten, bir istatistiğin yalnızca bir değeri, yani bir ortalama veya bir standart sapma vb. Elde edilebilir ve dolayısıyla istatistiğin ne kadar değiştiğini görmüyoruz. Önyükleme kullanırken, N örneklenmiş verilerden rastgele bir yeni yükseklik örneği çıkarırız, burada her kişi en fazla t seçilebilir. Bunu birkaç kez yaparak, görmüş olabileceğimiz çok sayıda veri kümesi oluşturur ve bu veri kümelerinin her biri için istatistikleri hesaplarız. Böylece istatistiğin dağılımı hakkında bir tahmin elde ederiz.

Yukarıdaki açıklamanın hangi kısmını anlamadığınızı açıklığa kavuşturabiliyorsanız daha ayrıntılı bilgi vereceğim.


4

Bunu aşağıdaki gibi düşünmek istiyorum: Bir popülasyondan rastgele örnek veri kümesi alırsanız, muhtemelen bu örnek kabaca kaynak popülasyonu ile eşleşen özelliklere sahip olacaktır. Bu nedenle, örneğin dağıtımın belirli bir özelliği hakkında güven aralıkları elde etmekle ilgileniyorsanız, örneğin çarpıklığı, örneği rasgele sözde örnek kümeleri elde edebileceğiniz sahte bir popülasyon olarak ele alabilirsiniz. her birinde ilgi özelliğinin değeri. Orijinal örneğin kabaca popülasyonla eşleştiği varsayımı, sözde popülasyondan "replasman" ile örnek alarak psödo örnekleri alabileceğiniz anlamına gelir (örn. Bir değeri örneklersiniz, kaydeder, sonra geri koyarsınız; böylece her değer birden çok kez gözlemlenme şansına sahiptir.).


3

Bootstrap esasen tekrarlanan deneyin bir simülasyonudur; diyelim ki topları olan bir kutunuz var, ortalama bir top boyutu elde etmek istiyorsunuz - bu yüzden bunlardan bazılarını çizin, ölçün ve bir ortalama alın. Şimdi dağıtımı almak için, örneğin standart bir sapma elde etmek için tekrarlamak istiyorsunuz - ancak birisinin kutuyu çaldığını öğrendiniz.
Şimdi yapılabilecekler, sahip olduklarınızı kullanmaktır - bu bir dizi ölçüm. Fikir, topları yeni kutuya koymak ve aynı sayıda top değiştirerek orijinal deneyi simüle etmektir - her ikisi de aynı örnek boyutuna ve değişkenliğe sahip olmak. Şimdi bu, ortalama dağılımı yaklaşık olarak belirlemek için kullanılabilecek bir dizi araç elde etmek için birçok kez tekrarlanabilir.


3

Bu, önyüklemenin özüdür: verilerinizin farklı örneklerini almak, her örnek için bir istatistik almak (örneğin, ortalama, medyan, korelasyon, regresyon katsayısı, vb.) Ve bir şey belirtmek için örnekler arasındaki istatistikteki değişkenliği kullanmak istatistik için standart hata ve güven aralıkları. - Bootstrapping ve R'deki önyükleme paketi

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.