Neden Bootstrapping'e ihtiyacımız var?


16

Şu anda Larry Wasserman'ın "Tüm İstatistikler" i okuyorum ve parametrik olmayan modellerin istatistiksel işlevlerini tahmin etme bölümünde yazdığı bir şeyden şaşkınım.

O yazdı

"Bazen bazı hesaplamalar yaparak istatistiksel bir işlevin tahmini standart hatasını bulabiliriz. Ancak diğer durumlarda standart hatanın nasıl tahmin edileceği açık değildir".

Bir sonraki bölümde bu konuyu ele almak için bootstrap hakkında konuştuğunu belirtmek isterim, ancak bu ifadeyi gerçekten anlamadığımdan Bootstrapping'in arkasındaki teşviki tam olarak alamıyorum?

Standart hatayı nasıl tahmin edeceğimiz açık değilse ne gibi bir örnek var?

Şimdiye kadar gördüğüm tüm örnekler sonraX1,...Xn Ber(p)se^(p^n)=p^(1p^)/n


Yanıtlar:


16

İki cevap.

  1. İki ortalama oranının standart hatası nedir? Medyanın standart hatası nedir? Herhangi bir karmaşık istatistiğin standart hatası nedir? Belki kapalı bir form denklemi vardır, ancak henüz kimse bunu yapmamış olabilir.
  2. Formülü, ortalamanın standart hatası (örneğin) için kullanmak için bazı varsayımlar yapmalıyız. Bu varsayımlar ihlal edilirse, yöntemi mutlaka kullanamayız. @Whuber'ın yorumlarda belirttiği gibi, önyükleme bu varsayımların bazılarını rahatlatmamızı sağlar ve bu nedenle daha uygun standart hatalar sağlayabilir (ancak ek varsayımlar da yapabilir).

2
Cevap 1 iyi, ancak cevap 2 soruya yalvarıyor gibi görünüyor, çünkü önyükleme de varsayımlar yapıyor. Demek istediğim bu, genellikle diğer popüler prosedürlerden farklı varsayımlar yapıyor olabilir , ancak bu sadece söylemeye çalıştığınız şey hakkındaki tahminim ve yanılmış olabilirim.
whuber

@Whuber - teşekkürler, biraz açıklama ekledim.
Jeremy Miles

5
Düzenlemeler için teşekkür ederim. Ancak, önyüklemenin , aslında bazılarını rahatlatmak yerine tipik olarak farklı varsayımlar yaptığı doğru değil mi? Örneğin, bir örnek ortalamanın bir SE'sini tahmin etmek için gereken varsayımlar, verinin iid olduğu ve temel dağılımın sınırlı bir varyansa sahip olduğudur. Bootstrap aslında bu durumda varsayımlar eklemelidir : örnek boyutu "yeterince büyük" olmadığı sürece çalışmaz. Her ne kadar bu teknikler üzerinde titriyor gibi görünse de, ele almaya çalıştığım şey büyük resim: önyükleme ne her derde deva ne de her zaman uygulanabilir.
whuber

3
@JeremyMiles önyükleme varsayımlardan muaf değil. Çoğu bootstrap hata hesaplaması için, standart bir hata için tutarlı bir tahminci elde etmekten daha karmaşık olabilen dağıtımın çok önemli olduğunu doğrulamanız gerekir. Ek olarak, araçların oranı δ yönteminden elde edilen çok kolay bir hata yaklaşımına sahiptir. Bu yüzden bu örneğin OP'nin amacına aykırı olduğunu düşünmüyorum.
AdamO

9

Bir örnek açıklamaya yardımcı olabilir. Nedensel bir modelleme çerçevesinde, (ilgilenilen bir pozlama) ile Y (ilgilenilen bir sonuç ) arasındaki ilişkiye bir değişken W'nin aracılık edip etmediğini belirlemek istediğinizi varsayalım . Bu, iki regresyon modelinde:XYW

E[Y|X]=β0+β1XE[Y|X,W]=γ0+γ1X+γ2W

Etkisi etkisi farklıdır γ 1 .β1γ1

Örnek olarak, sigara kullanımı ile kardiyovasküler (CV) risk arasındaki ilişkiyi ele alalım. Sigara içmek, damarların kırılgan ve kireçlenmesine neden olarak CV riskini (kalp krizi ve inme gibi olaylar için) açıkça artırır. Bununla birlikte, sigara içmek de iştah bastırıcıdır. Bu nedenle, sigara içme ve CV riski arasındaki tahmini ilişkiye, bağımsız olarak CV riski için bir risk faktörü olan BMI aracılık edip etmediğini merak ediyoruz. Burada , lojistik regresyon modelinde ikili bir olay (miyokardiyal veya nörolojik enfarktüs) veya koroner arter kalsifikasyonu (CAC), sol ventrikül ejeksiyon fraksiyonu (LVEF) veya sol ventrikül kütlesi (LVM) gibi sürekli bir değişken olabilir.Y

İki modele 1 uyacağız: sigara içme ve sonuç ile birlikte yaş, cinsiyet, gelir ve ailevi kalp hastalığı öyküsü gibi diğer çelişkilerle ayarlama: 2: önceki tüm ortak değişkenler ve vücut kitle indeksi. Model 1 ve 2 arasındaki sigara içme etkisindeki fark, çıkarımızı dayandırdığımız yerdir.

H hipotezlerini test etmekle ilgileniyoruz

H:β1=γ1K:β1γ1

Olası bir etki ölçümü şunlar olabilir: veya S = β 1 / γ 1 veya herhangi bir sayıda ölçüm. T ve S için olağan tahmin edicileri kullanabilirsiniz . Bu tahmin edicilerin standart hatası türetmek çok karmaşıktır. Bununla birlikte, bunların dağılımını önyüklemek yaygın olarak uygulanan bir tekniktir ve p değerini doğrudan bundan hesaplamak kolaydır .T=β1γ1S=β1/γ1TSp


Sanırım bu cevapla nereye gittiğini anlıyorum, ama detaylardan şaşkınım. ve S açıklamalarınızdaki parametrelerin üzerine şapka koymak istediniz mi ? Bu metinler kestiricilerden ziyade bir modelin özellikleri olmalıdır. Bunun gibi iki farklı modelin özelliklerini karıştırmanın anlamı nedir ? Gerçekten şapka demek istediyseniz, T ve S , tahmin ediciler olarak kullanılacak istatistiklerdir, ancak neyi tahmin etmeyi amaçlamaktadırlar? TSTS
whuber

TS

γ2=0

@whuber Ah karışıklığı görüyorum. Lütfen MacKinnon tarafından önerilen bir makaleye bakın .
AdamO

TSTTT

2

Her bir istatistiksel ölçüm için parametrik çözümlere sahip olmak arzu edilir, ancak aynı zamanda oldukça gerçekçi değildir. Bootstrap bu durumlarda kullanışlıdır. Aklıma gelen örnek, yüksek derecede çarpık maliyet dağılımının iki yolu arasındaki farkla ilgilidir. Bu durumda, klasik iki örnekli t-testi teorik gereksinimlerini karşılayamaz (araştırılan örneklerin uzun sağ kuyrukları nedeniyle kesinlikle normalden ayrılır) ve parametrik olmayan testler iletilmez karar vericilere (genellikle rütbelerle ilgilenmeyen) faydalı bilgiler. Bu konuda takılmayı önlemek için olası bir çözüm, iki örnekli bir bootstrap t-testidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.