Parametrik olmayan bootstrap p değerleri, güven aralıklarına karşı


11

bağlam

Bu, bu soruya biraz benziyor , ancak bunun tam bir kopya olduğunu düşünmüyorum.

Bir bootstrap hipotez testinin nasıl yapılacağına dair talimatlara baktığınızda, genellikle ampirik dağılımı güven aralıkları için kullanmanın iyi olduğu, ancak bir p- elde etmek için boş hipotez altındaki dağılımdan doğru şekilde önyükleme yapmanız gerektiği belirtilir. değer. Örnek olarak, bu sorunun kabul edilen cevabına bakınız . İnternette yapılan genel bir arama çoğunlukla benzer cevaplara yol açıyor gibi görünüyor.

Ampirik dağılıma dayalı bir p-değeri kullanmamanın nedeni, çoğu zaman çeviri değişmezliğimiz olmamasıdır.

Misal

Kısa bir örnek vereyim. Bir madalyonumuz var ve kafa sıklığının 0,5'ten büyük olup olmadığını görmek için tek taraflı bir test yapmak istiyoruz

n=20 deneme yapıyoruz ve k=14 kafa alıyoruz . Bu test için gerçek p değeri p=0.058 .

Öte yandan 20 kafadan 14'ünü bootstrap yaparsak, n=20 ve p = 14 ile binom dağılımından etkin bir şekilde örnek alırızp=1420=0.7. Bu dağılımı 0,2 çıkararak kaydırdığımızda 0,7 gözlemlenen değerimizi elde edilen ampirik dağılıma göre test ederken çok önemli bir sonuç elde edeceğiz.

Bu durumda tutarsızlık çok küçüktür, ancak test ettiğimiz başarı oranı 1'e yaklaştığında artar.

Soru

Şimdi sorumun gerçek noktasına geleyim: Aynı kusur güven aralıkları için de geçerli. Aslında, bir güven aralığı belirtilen güven seviyesine α sahipse, sıfır hipotezi altında parametreyi içermeyen güven aralığı sıfır hipotezini 1α anlamlılık düzeyinde reddetmeye eşdeğerdir .

Ampirik dağılıma dayalı güven aralıkları neden yaygın kabul görüyor ve p-değeri kabul edilmiyor?

Daha derin bir neden var mı yoksa insanlar güven aralıklarında o kadar muhafazakar değil mi?

Bu cevapta Peter Dalgaard tartışmamla aynı fikirde gibi görünen bir cevap veriyor. Diyor:

Bu akıl yürütme çizgisi hakkında özellikle yanlış bir şey yoktur veya en azından CI'nin hesaplanmasından daha kötü değildir.

(Çok) nereden geliyor? Bu şekilde p-değerleri üretmenin biraz daha kötü olduğunu, ancak bu konuda ayrıntılı olmadığını ima eder.

Son düşünceler

Ayrıca Efron ve Tibshirani tarafından Bootstrap'a Giriş'te, güven aralıklarına çok fazla alan ayırırlar, ancak genel eşdeğerliği hakkında bir tek kullanımlık çizgi hariç, uygun bir sıfır hipotez dağılımı altında üretilmedikçe p-değerlerine değil. permütasyon testi ile ilgili bölümde güven aralıkları ve p-değerleri.

Bağlantı verdiğim ilk soruya da geri dönelim . Michael Chernick'in cevabına katılıyorum, ancak yine ampirik bootstrap dağılımına dayanan güven aralıklarının ve p değerlerinin bazı senaryolarda eşit derecede güvenilmez olduğunu savunuyor. Neden birçok insanın aralıkların iyi olduğunu söyleyen birisini bulduğunuzu açıklamıyor, ancak p-değerleri iyi değil.


Önyükleme CI'lerinin bir hipotezi kabul etmek / reddetmek için nasıl ve ne zaman kullanılabileceğine dair netlik kazanmakla çok ilgilendiğim için bu soruya bir lütuf başlıyorum. Belki sorunuzu daha özlü ve çekici hale getirmek için yeniden ifade edebilir / yeniden biçimlendirebilirsiniz? Teşekkürler !
Xavier Bourret Sicotte

Çoğu insan aşağıdaki varsayımlar uygulandığında hipotez testi için CI kullanmanın uygun olduğunu kabul edecektir: test istatistiği, pivotal test istatistiği, CLT uygulaması, hiçbir veya birkaç rahatsızlık parametresi vb. Simetrik dağılımı. gariptir veya çok önemli olduğu kanıtlanmamıştır. İşte üzerinde çalıştığım gerçek bir örnek: örneğin bir oran istatistiğinin 75. persantilleri arasındaki iki örnek farkı (iki toplamın oranı)
Xavier Bourret Sicotte

Basit cevap, sıfır hipotezi altında nasıl örnek alınacağının açık olması değil, bu yüzden açıkça daha iyi bir alternatif yöntem var mı? Önyükleme altında örnekleme genellikle ampirik dağılım altında gerçekleşir, bu nedenle gerçek veri oluşturma mekanizması, bu nedenle sadece boşta örnekleme yerine açıkça kullanılmamalıdır. Önyüklemeli CI, örnekleme dağılımını gerçek veri oluşturma mekanizması altında ters çevirerek bulunur. Bu CI'nin iyi çalışmayabileceği doğrudur, ancak Dalgaard'ın dediği gibi, nasıl düzeltileceği belli değildir.
jsk

Ampirik dağılımın sadece gerçek veri üretme mekanizmasının bir tahmini olduğunu açıklığa kavuşturmalıyım. Gerçeği temsil etmediği ölçüde, önyüklemeli CI'yi bilinmeyen yönlerde olumsuz yönde etkileyecek ve% 95'ten daha az kapsama alanı sağlayacaktır.
jsk

1
Test bir ortalama fark olduğunda null altında örnekleme açıktır, ancak birçok durumda null'un nasıl çoğaltılacağı açık değildir ... örneğin null, iki oranın 75. persentilinin aynı olduğu ... almak için her örnekteki oranların paylarını ve paydalarını değiştirebilir miyim? Ayrıca, oranın bileşenlerini kaydırmanın aslında null değerini ürettiğinden nasıl emin olabilirim?
Xavier Bourret Sicotte

Yanıtlar:


3

@MichaelChernick'in bağlantılı bir soruya verdiği cevap hakkındaki bir yoruma yanıt olarak söylediği gibi :

Güven aralıkları ve hipotez testleri arasında genel olarak 1-1 bir yazışma vardır. Örneğin, bir model parametresi için% 95 güven aralığı, bu parametrenin değeri ile ilgili olarak karşılık gelen% 5 seviye hipotez testi için ret olmayan bölgeyi temsil eder. Nüfus dağılımlarının şekli hakkında bir gereklilik yoktur. Açıkçası, genel olarak güven aralıkları için geçerliyse, önyükleme güven aralıkları için de geçerlidir.

Bu cevap iki ilişkili konular ele alınacak Yani: (1) neden önyükleme sonuçlarının kudreti sunumları ziyade güven aralıkları (CI) belirtmek için daha sık görünmektedir p Söz konusu önerilen ve (2) ne zaman olabilir hem de,-değerlerinin p -değerleri ve bootstrap tarafından belirlenen CI'nin güvenilir olmadığından şüphelenilir, bu nedenle alternatif bir yaklaşım gerektirir.

İlk sayıdaki bu sorudaki iddiayı özel olarak destekleyen verileri bilmiyorum. Belki de pratikte, birçok bootstrap kaynaklı nokta tahmini, test karar sınırlarından o kadar uzaktır (veya en azından öyle görünmektedir) , karşılık gelen sıfır hipotezinin p değerine çok az ilgi vardır, nokta tahmininin kendisi ve olası değişkenliğinin büyüklüğünün makul bir ölçüsüdür.

İkinci konu ile ilgili olarak, birçok pratik uygulama, "test istatistiği, pivotal test istatistiği, CLT uygulaması, rahatsızlık verici parametrelerin hiç olmaması veya az olması" (yukarıdaki @XavierBourretSicotte tarafından yapılan bir yorumda olduğu gibi) simetrik olarak dağıtılmaktadır. Bu durumda soru, bu koşullardan olası sapmaların nasıl tespit edileceği ve ortaya çıktıklarında onlarla nasıl başa çıkılacağı haline gelir.

İdeal davranıştan bu potansiyel sapmalar onlarca yıldır takdir edilmiştir , onlarla başa çıkmak için erken geliştirilen birkaç bootstrap CI yaklaşımı vardır. Studentized bootstrap , önemli bir istatistik sağlamaya yardımcı olur ve BCa yöntemi, bootstraps'lardan daha güvenilir CI elde etmek açısından hem önyargı hem de çarpıklık ile ilgilenir. Önyükleme CI'sini belirlemeden önce verilerin varyans dengeleyici dönüşümü , ardından orijinal ölçeğe geri dönüşüm de yardımcı olabilir.

Adil bir madeni paradan 20 fırçanın 14 başından 14 kafadan örnekleme ile ilgili bu sorudaki örnek, BCa yönteminden CI kullanılarak güzel bir şekilde ele alınmıştır; R cinsinden:

> dat14 <- c(rep(1,14),rep(0,6))
> datbf <- function(data,index){d <- data[index]; sum(d)}
> set.seed(1)
> dat14boot <- boot(dat14,datbf,R=999)
> boot.ci(dat14boot)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 999 bootstrap replicates

CALL : 
boot.ci(boot.out = dat14boot)

Intervals : 
Level      Normal              Basic         
95%     (9.82, 18.22 )   (10.00, 18.00 )  

Level     Percentile            BCa          
95%       (10, 18 )         ( 8, 17 )  
Calculations and Intervals on Original Scale

Diğer CI tahminleri, 20 fırlama başına 10 kafa nüfus değerine çok yakın veya kenarında olma problemini ortaya koymaktadır. BCa CI çarpıklıktan sorumludur (çift oranlı örneklemenin eşit oranlardan uzakta olduğu gibi), bu nedenle 10 nüfus değerini güzel bir şekilde içerirler.

Ancak bu çözümlerden yararlanabilmeniz için ideal davranıştan böyle sapmalar aramalısınız. İstatistiksel uygulamaların çoğunda olduğu gibi, aslında bir algoritmaya takmak yerine verilere bakmak anahtar olabilir. Örneğin, taraflı bir bootstrap sonucu için CI ile ilgili bu soru , yukarıdaki kodda gösterilen ilk 3 CI için sonuçları gösterir, ancak BCa CI'yi hariç tutar. BCa CI'yi dahil etmek için bu soruda gösterilen analizi yeniden oluşturmaya çalıştığımda, sonucu aldım:

> boot.ci(boot(xi,H.boot,R=1000))
Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o,  : 
estimated adjustment 'w' is infinite

burada 'w' yanlılık düzeltmesine katılır. İncelenen istatistik sabit bir maksimum değere sahiptir ve önyükleme yapılan eklenti tahmini de doğal olarak önyargılıdır. Böyle bir sonuç elde etmek, önyüklemeli CI'nin altında yatan olağan varsayımların ihlal edildiğini göstermelidir.

Çok önemli bir miktarı analiz etmek bu tür problemleri önler; ampirik bir dağılım yararlı kesinlikle önemli istatistiklere sahip olmasa da, makul olduğu kadar yaklaşmak önemli bir hedeftir. Bu cevabın son birkaç paragrafı, bir istatistiğin (potansiyel olarak bazı veri dönüşümünden sonra) önemli olana yakın olup olmadığını ve hesaplama açısından pahalı fakat potansiyel olarak belirleyici çift bootstrap olup olmadığını tahmin etmek için pivot grafikleri gibi diğer yardımcılara bağlantılar sağlar.


Teşekkürler edm! CI ve hipotez testi arasında 1-1 rekasyon varsa - neden bootstrap testi genellikle null değerini çoğaltmak için veri kümelerini değiştirmeyi içerir? Bunu yaparak, örneğin fark dağılımının CI'sini hesaplayarak elde ettiğimizden farklı sonuçlar elde etmiyoruz?
Xavier Bourret Sicotte

@XavierBourretSicotte "Bootstrap testinin genellikle veri kümelerini null değerini çoğaltmak için kaydırmayı gerektirdiğini" doğru bulmuyorum. Her bootstrap örneği, temel popülasyonu temsil etmek için eldeki örneği kullanarak orijinal örneklemeyi / deneyi çoğaltma girişimidir. Bununla birlikte, söz konusu istatistik çok önemli değilse, önyüklemeli örneklerde geliştirilen CI, temel popülasyonda geliştirilen CI'yi temsil etmez. Bu yüzden istatistiğin BCa veya diğer yaklaşımlarla boş olarak ne olacağına ilişkin dağılımını düzeltmeniz gerekir .
EdM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.