Bağımlı gözlemlerde önyükleme yoluyla güven aralıklarının hesaplanması

Bootstrap, standart formunda, gözlemlerin geçerli olması koşuluyla tahmini istatistiklerin güven aralıklarını hesaplamak için kullanılabilir. I. Visser ve diğ. " Gizli Markov Model Parametreleri için Güven Aralıkları " nda, HMM parametreleri için CI'leri hesaplamak için bir parametrik önyükleme kullandı. Bununla birlikte, bir gözlem sekansına bir HMM taktığımızda, gözlemlerin zaten bağımlı olduğunu varsaydık (karışım modellerinin aksine).

İki sorum var:

Iid varsayımı bootstrap ile ne yapıyor?
Parametrik bir önyüklemedeki iid gereksinimini yoksayabilir miyiz?

Visser ve diğ. yöntemi kısaca aşağıdaki gibidir:

Biz bir gözlem sekansına sahip varsayalım parametrelerinin gerçek fakat bilinmeyen seti ile bir HMM örnekleme kaynaklanmıştır . $Y=o_1,o_2,...,o_n$ $\theta=\theta_1,\theta_2,...,\theta_l$
Parametreler EM algoritması kullanılarak tahmin edilebilir: $\hat{\theta}=\hat{\theta}_1,\hat{\theta}_2,...,\hat{\theta}_l$
boyutunda bir önyükleme örneği oluşturmak için tahmini HMM'yi kullanın : $n$ $Y^*=o^*_1,o^*_2,...,o^*_n$
HMM parametrelerini bootstrap örneğine göre tahmin edin: $\hat{\theta}^*=\hat{\theta}^*_1,\hat{\theta}^*_2,...,\hat{\theta}^*_l$
önyükleme tahminleri ile sonuçlanan kez (örn. = 1000) için 3. ve 4. adımları tekrarlayın : $B$ $B$ $B$ $\hat{\theta}^*(1),\hat{\theta}^*(2),...,\hat{\theta}^*(B)$
Önyükleme tahminlerinde tahmini her parametrenin hesaplayarak dağılımını kullanın . $\hat{\theta}_i$ $\hat{\theta}^*_i$

Notlar (bulgularım):

Doğru kapsama sahip olmak için CI'leri hesaplamak için yüzdelikler yöntemi kullanılmalıdır (normalite kötü bir varsayımdır).
Bootstrap dağılımının sapması düzeltilmelidir. Bu, dağıtım ortalamasının kaydırılması gerektiği anlamına gelir $\hat{\theta}^*_i$ $\hat{\theta}_i$

confidence-interval bootstrap hidden-markov-model

— Sadeghd
kaynak

Diğer bir deyişle ilk soru: iid varsayımının bootstrap üzerindeki etkisi nedir? Daha karmaşık bir algoritma veya formül izlenerek kaldırılabilecek basitleştirici bir varsayım mı?

— Sadeghd

Kısa cevaplar: 1. Basitleştirir. (Açıkçası soruyu alamadım). 2. Hayır, hiçbir zaman göz ardı edemezsiniz, çünkü iid eksikliğinin tahmin ettiğiniz şeylerin varyansları üzerinde doğrudan sonuçları vardır.

Orta cevap: Önyükleme ile ilgili temel sorun, 'Önerilen prosedür verilerin özelliklerini yeniden oluşturuyor mu?' . Iid varsayımının ihlali büyük bir şeydir: verileriniz bağımlıdır, büyük olasılıkla verilerinizde aynı boyuttaki bir iid örneğinde olduğundan daha az bilgiye sahipsiniz ve saf bir bootstrap çalıştırıyorsanız (bireyi yeniden örnekleyin) gözlemler), ondan aldığınız standart hatalar çok küçük olacaktır. Önerilen prosedür, model yapısı ve parametrelerindeki bağımlılığı yakalayarak (veya en azından yakalamaya çalışarak) bağımsızlık eksikliğini ortadan kaldırır. Başarılı olursa, her bir önyükleme örneği verilerin özelliklerini gerektiği gibi yeniden üretir.

Uzun cevap:Önyükleme ile ilgili birden fazla varsayım katmanı vardır ve mümkün olan en basit durumda bile (iid verileri, ortalamanın tahmini), en az üç varsayım yapmanız gerekir: (1) ilgili istatistik, verilerin düzgün bir işlevidir (ortalama durumunda doğrudur, persentiller söz konusu olduğunda bile o kadar doğru değildir, en yakın komşu eşleşen tahmin edicilerle tamamen kapalıdır); (2) önyükleme yaptığınız dağıtım, nüfus dağılımına "yakın" olur (iid verileri durumunda tamam çalışır; yalnızca tek bir yörüngeye sahip olduğunuz bağımlı veriler durumunda düzgün çalışmayabilir = zaman serileri durumunda ve bu tek gözlemi yarı popülasyona yaymak için durağanlık ve karıştırma gibi ek varsayımları çağırmanız gerekir); (3) Monte Carlo bootstrap örneklemeniz, olası tüm alt örneklerle komple bootstrap için yeterince iyi bir yaklaşımdır (Monte Carlo'ya karşı tam bootstrap kullanımındaki yanlışlık, yakalamaya çalıştığınız belirsizlikten çok daha azdır). Parametrik bootstrap durumunda, (4) modelinizin verilerin tüm özelliklerini mükemmel bir şekilde açıkladığını varsayarsınız.

$y=x\beta + \epsilon$ $[\epsilon] = \exp[ x\gamma]$ $\bar\sigma^2 (X'X)^{-1}$ $\bar\sigma^2$ $1/n \sum_i \exp[x_i \gamma]$ $(X'X)^{-1} \sum \exp[x_i \gamma] x_i x_i' (X'X)^{-1}$ ). Bu nedenle, tamamen parametrik bir bootstrap çözümüne sahip olmak istiyorsanız, ortalama için modelle birlikte heteroskedastisite için modele uymanız gerekir. Seri veya başka bir korelasyondan şüpheleniyorsanız, bunun için de modele uymanız gerekir. (Bkz. Verilerin sesini modelinizin sentezlenmiş sesiyle değiştirdiğiniz için, bootstrap'in parametrik olmayan dağıtımdan bağımsız lezzeti şimdilik ortadan kalktı.)

Açıkladığınız yöntem tamamen yeni bir örnek oluşturarak iid varsayımı etrafında çalışır. Bağımlı veri önyükleme ile ilgili en büyük sorun, orijinal verilerdekilere yeterince yakın olan bağımlılık kalıplarına sahip olan örnek oluşturmaktır. Zaman serilerinde blok önyükleme komutlarını kullanabilirsiniz; kümelenmiş verilerle tüm kümeleri önyüklersiniz; heteroskedastik regresyon ile, vahşi bootstraps ile (bir heteroskedasticty modeli takmış olsanız bile, artıkların bootstrapinden daha iyi bir fikir). Blok önyüklemede, zaman serisinin uzak bölümlerinin yaklaşık olarak bağımsız olduğu konusunda eğitimli bir tahmin yapmalısınız (veya başka bir deyişle inanmak için iyi nedenlere sahip olmalısınız), böylece tüm korelasyon yapısının bitişik 5 veya 10 tarafından yakalanması gerekir. bloğu oluşturan gözlemler. Dolayısıyla, zaman serisinin korelasyon yapısını tamamen görmezden gelen gözlemleri tek tek yeniden örneklemek yerine, bunun korelasyon yapısına saygı göstereceğini umarak bloklar halinde yeniden örneklersiniz. Bahsettiğiniz parametrik bootstrap şöyle diyor: "Verilerle uğraşmak ve yeni bebekleri eskilerin parçalarından birleştirmek yerine, neden tüm kalıplanmış Barbie'yi sizin için damgalamıyorum? Sevdiğin Barbie ve sana da istediğini yapacağım söz veriyorum. " Verilerle uğraşmak ve yeni bebekleri eskilerin parçalarından birleştirmek yerine, neden tüm kalıplanmış Barbie'yi sizin için damgalamıyorum? Ne tür Barbie'leri sevdiğini anladım ve söz veriyorum sana da istediğini yapacağım. " Verilerle uğraşmak ve yeni bebekleri eskilerin parçalarından birleştirmek yerine, neden tüm kalıplanmış Barbie'yi sizin için damgalamıyorum? Ne tür Barbie'leri sevdiğini anladım ve söz veriyorum sana da istediğini yapacağım. "

Tanımladığınız parametrik bootstrap durumunda, HMM model uyumunuzun oldukça mükemmel olduğundan emin olmalısınız, aksi takdirde parametrik bootstrapiniz yanlış sonuçlara yol açabilir (Kollarını hareket ettiremeyen Barbie). Yukarıdaki heteroskedastik regresyon örneğini düşünün; veya bir AR (1) modelini AR (5) verilerine takmayı düşünün: parametrik olarak simüle edilmiş verilerle ne yaparsanız yapın, orijinal verilerin sahip olduğu yapıya sahip olmazlar.

Edit : Sadeghd sorusunu açıklığa kavuştururken, ben de buna cevap verebilirim. Her biri istatistik, örnek boyutu, bağımlılık veya bootstrap ile ilgili bir sorun ne olursa olsun belirli bir tuhaflığa hitap eden çok çeşitli bootstrap prosedürleri vardır. Örneğin, bağımlılığı ele almanın tek bir yolu yoktur. (Anket bootstraps'ları ile çalıştım, bazıları pratik çıkartan ziyade çoğunlukla metodolojik olsa da yaklaşık 8 farklı prosedür var; Bootstrap ile karşılaşabileceğiniz sorunların genel tartışması, bkz. Canty, Davison, Hinkley ve Ventura (2006). Önyükleme tanılama ve çareleri. Kanada İstatistik Dergisi, 34 (1), 5-27 .

— StasK
kaynak

Bağımlı veri kümeleriniz olduğunda ( Orta bölümde) daha az bilgi sahibi olmakla ilgili ifadenize biraz eklemek için , bunun bir kümede pozitif sınıf içi korelasyonun olduğu yerlerde doğru olduğuna inanıyorum , ancak olumsuz olduğunda tersi doğrudur sınıf içi korelasyon. Tabii ki, çoğu gerçek veri uygulamasında sınıf içi korelasyonların olumlu olduğu görülmektedir.

— Makro

@Macro: Kesinlikle her iki konuda haklısınız (bunun teknik olarak mümkün olduğu ve pratik olarak ilgisiz olduğu). Olumsuz bir korelasyon ile bir AR (1) sürecinin ortalama seviyesini tahmin ederseniz, aynı şey geçerli olacaktır, ancak yine de bu özelliğe sahip olabilecek gerçek süreçleri düşünmeden kayboldum. Farklı zaman ölçeklerinde kendi kendine yeniden üretilebilen pozitif otokorelasyondan farklı olarak, referans sürenizin uzunluğunu iki katına çıkarırsanız negatif korelasyon ortadan kalkmalıdır. (ABD GSYİH gibi iş döngüsü verilerinin yaklaşık üç yıllık gecikme süresi arasında negatif korelasyonları vardır.)

— StasK

Ayrıntılı cevabınız için teşekkürler. Parametrik yeniden örneklemenin bağımlılığın etkisini azaltabileceği sonucuna vardım. Bununla birlikte, parametrik dağılım, büyük ölçüde gerçek popülasyonu temsil etmeli ve bağımlılık örüntüleri yeniden örneklemede yeniden oluşturulmalıdır.

— Sadeghd