Önyargılı bootstrap: CI'yi gözlemlenen istatistik etrafında ortalamak uygun mu?


13

Bu, Bootstrap'e benzer : tahmin, güven aralığının dışında

Bir popülasyondaki genotiplerin sayısını temsil eden bazı verilerim var. Shannon dizinini kullanarak genetik çeşitliliği tahmin etmek ve ayrıca bootstrapping kullanarak bir güven aralığı oluşturmak istiyorum. Bununla birlikte, önyükleme yoluyla tahminin son derece önyargılı olduğunu ve gözlemlediğim istatistik dışında kalan bir güven aralığıyla sonuçlandığını fark ettim.

Aşağıda bir örnek verilmiştir.

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

Veri üretimi

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

Hesaplama

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

Önyargı düzeltme ile CI oluşturma

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

T varyansının t0 varyansı için kullanılabileceğini varsayarsak .

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

CI etrafında bildirmek doğru olur t0 ? Bootstrap'i oluşturmanın daha iyi bir yolu var mı?

Yanıtlar:


12

OP tarafından verilen kurulumda ilgili parametre Shannon entropi bu olasılık vektörünün bir fonksiyonudur . örneğe dayalı tahminci ( simülasyonda ) eklenti tahmin edicisi Numuneler, Shannon entropisinin olduğu homojen dağılım kullanılarakShannon entropisi eşit dağılımda maksimize edildiğinden, eklenti tahmincisi aşağıya doğru eğimli olmalıdır . Bir simülasyon,

θ(p)=i=150pilogpi,
pR50nn=100
θ^n=θ(p^n)=i=150p^n,ilogp^n,i.
log(50)=3.912.bias(θ^100)0.28 , . Eklenti tahmincisi tutarlıdır, ancak metodu tekdüze dağılım olarak için geçerli değildir , çünkü Shannon entropisinin türevi 0'dır. Dolayısıyla, nin bu özel seçimi için , asimptotik argümanlara dayanan güven aralıkları belirgin değildir. bias(θ^500)0.05Δpp

Yüzdelik aralık, dağılımına dayanmaktadır; burada , gözlem örneklemesinden elde edilen tahmin . Özellikle, dağılımı için% 2.5 kantil ile% 97.5 kantil arasındaki aralıktır . OP'nin bootstrap simülasyonunun gösterdiği gibi, , açıkça tahmincisi olarak aşağıya doğru eğimlidir ; tamamen yanlış.θ(pn)pnnp^nθ(pn)θ(pn)θ(p^n)

Temel (ve normal) aralık için, kantillerin rolleri değiştirilir. Bu, aralığın makul göründüğü anlamına gelir (3.912'yi kapsar), ancak 3.912'yi aşan aralıklar mantıklı değildir. Dahası, temel aralığın doğru kapsama sahip olup olmayacağını bilmiyorum. Gerekçesi aşağıdaki yaklaşık dağıtım kimliğine dayanmaktadır:

N , n = 100

θ(pn)θ(p^n)Dθ(p^n)θ(p),
bu gibi (nispeten) küçük için sorgulanabilir olabilir .nn=100

Standart bir hata OP'ın son öneri dayalı aralık olacak değil çünkü büyük önyargı da işe. Bu belki bir önyargı düzeltilmiş tahmincisi için çalışmak, ama sonra ilk önyargı düzeltilmiş tahmincisi için tüm ihtiyaç doğru standart hataları.θ(p^n)±1.96se^n

için profil günlüğü olasılığını temel alarak bir olasılık aralığını dikkate . farklı sabit değerleri için üzerinde günlük olasılığını en üst düzeye çıkarmanız dışında, bu örnek için profil günlüğü olasılığını hesaplamanın basit bir yolunu bilmemekten korkuyorum. .p θ ( p )θ(p)pθ(p)


5
Entropi için "plug-in" tahmin edicisini kullanma konusundaki önyargı sorunu onlarca yıldır takdir edilmektedir. Bu makale daha az önyargılı tahminleri analiz etmektedir. OP tarafından sunulan davaya, 1955 yılına kadar (bağlantılı makalenin 4 numaralı maddesine bakınız) kadar olan derecesine kadar bir sapma düzeltmesi uygulanabilir. Düzeltme, 0.245'tir, bootstrap tarafından tanımlanan önyargı ile neredeyse aynıdır. Belki de bootstrap burada sadece güven sınırlarını değil, entropinin kendisini tahmin etmek için kullanılmalıdır. 1/n
EdM

@EdM bu çok faydalı bir bilgidir. Bu önyargı sorunu hakkındaki literatürü bilmiyordum. Açıklamayı, önyargı düzeltmesini ve önyükleme ile nasıl kullanılabileceğini açıklayan bir yanıt haline getirebilmeniz gerçekten yararlı olabilir, örneğin güven aralıkları elde etmek için.
NRH

Bu literatürü de bilmiyordum, bu soru ve cevabınız gelene kadar. Bu biraz utanç verici, çünkü Shannon entropisi biyomedikal bilim alanında sık sık bir ölçü olarak kullanılıyor. Ek bir cevap olarak neleri bir araya getirebileceğimi göreceğim.
EdM

1
Bootstrap örneklerinin sayısını artırmak gerçekten yardımcı olmaz. dağıtımı için ilgi miktarlarını güvenilir bir şekilde tahmin edebilmeniz için yeterince büyük olması gerekir , ancak aksi takdirde bootstrap örneklerinin sayısını artırmak önyargıları kaldırmayacak veya güven artık daha uygun. θ(pn)
NRH

1
Üzgünüm ZNK, sorunuzu yanlış anladım. Numune boyutunu artırırsanız, sapma daha küçük olacaktır, evet! Tahminci tutarlıdır. Tekdüze dağılım için, cevapta tarif ettiğim nedenlerden dolayı , büyük için bile güven aralıklarının gerçek kapsamı hakkında biraz şüpheci olurum. Diğer tüm dağıtımlar için CLT uygulanır ve farklı yöntemler için asimptotik olarak doğru kapsama alanı oluşturur . n n nnn
NRH

7

@NRH'nin cevabının işaret ettiği gibi, sorun, önyüklemenin taraflı bir sonuç vermemesi değil. Bir örneklemden elde edilen verilere dayanarak Shannon entropisinin basit "eklenti" tahmininin gerçek popülasyon değerinden aşağıya doğru sapmasıdır.

Bu sorun, 1950'lerde, bu endeksin tanımlanmasından birkaç yıl sonra fark edildi. Bu makale , ilgili literatüre atıflar ile altta yatan konuları tartışmaktadır.

Sorun, bireysel olasılıkların bu entropi ölçüsü ile doğrusal olmayan ilişkisinden kaynaklanmaktadır. Bu durumda, örnek n , de gen i için gözlemlenen genotip fraksiyonu , gerçek olasılık olan nin tarafsız bir tahmincisidir . Ancak bu gözlemlenen değer, M genleri üzerinde entropi için "plug-in" formülüne uygulandığında:p, n,ip^n,ipn,i

θ^n=θ(p^n)=i=1Mp^n,ilogp^n,i.

doğrusal olmayan ilişki, ortaya çıkan değerin, gerçek genetik çeşitliliğin önyargılı bir düşük tahmini olduğu anlamına gelir.

Önyargı, gen sayısına, ve gözlem sayısına, . İlk siparişe göre, eklenti tahmini gerçek entropiden bir miktar kadar düşük olacaktır . Daha yüksek mertebeden düzeltmeler yukarıda verilen makalede değerlendirilir.N ( M - 1 ) / 2 NMN(M1)/2N

R'de bu konuyla ilgilenen paketler var. simbootÖzellikle paket işlevi vardır estShannonfbu önyargı düzeltmeleri yapar ve bir işlevi sbdivgüven aralıkları hesaplamak için. Sıfırdan başlamaya çalışmak yerine, bu tür yerleşik açık kaynaklı araçları analiziniz için kullanmak daha iyi olacaktır.


Öyleyse kendi başına tahminci, örneklem büyüklüğü nedeniyle hatalı mu? simbootPaket görünüyor umut verici, ancak güven aralıklarının tahmini için bir kontrol örneğine ihtiyacım olarak benim amaçlar için uygun görünmemektedir.
ZNK

1
"Hatalı" tam olarak doğru değil; tahmin edici, beklenen değerinin gerçek popülasyon değeri ile aynı olmaması nedeniyle "yanlıdır". Bu "hatalı" anlamına gelmez; önyargılı tahmin ediciler, tahmin edicilerin seçimindeki sapma-varyans dengesiyle gösterildiği gibi yararlı olabilir . Eğer simbootihtiyaçlarınızı karşılamıyorsa, gibi diğer Ar paketleri bağlantılar için Google "shannon entropi önyargı r" entropy, entropartve EntropyEstimation.
EdM

1
Popülasyonda bulunan bazı genotiplerin herhangi bir örnekte gözden kaçırılabilmesinden kaynaklanan ek sorunlar vardır. Nüfus ve ekoloji temelli R paketlerinin bazılarının bu sorunla başa çıkma yolları vardır.
EdM
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.