Önyükleme işleminde .632+ kuralı nedir?

107

Burada @gung, .632+ kuralına referansta bulunur. Hızlı bir Google araması, bu kuralın ne anlama geldiği ve ne amaçla kullanıldığı konusunda anlaşılması kolay bir cevap vermez. Birisi lütfen .632+ kuralını açıklar mı?

bootstrap

— russellpierce
kaynak

115

0.632 tahmincisine ulaşacağım, ancak biraz daha uzun bir gelişme olacak:

işlevini kullanarak $Y$ ile tahmin etmek istediğimizi varsayalım ; burada , veriler kullanılarak tahmin edilen bazı parametrelere bağlı olabilir , örneğin, $X$ $f$ $f$ $(\mathbf{Y}, \mathbf{X})$ $f(\mathbf{X}) = \mathbf{X}\mathbf{\beta}$

Nadir bir tahmin hatası tahmini, burada bir kayıp fonksiyonu, örneğin kare hata kaybı). Buna genellikle eğitim hatası denir. Efron ve diğ. görünür hata oranı veya yeniden yerleştirme oranı olarak adlandırır. Bizim veri kullandıkları için çok iyi değil sığacak şekilde . Bu, in aşağıya doğru eğimli olmasına yol açar. modelinizin yeni değerleri öngörmede ne kadar iyi olduğunu bilmek istersiniz .

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

L

$L$

(x_{i}, y_{i})

$(x_i,y_i)$

f

$f$

\bar{e r r}

$\overline{err}$

f

$f$

Genellikle çapraz onaylamayı beklenen ekstra örnek tahmin hatasını tahmin etmenin basit bir yolu olarak kullanırız (modelimiz eğitim setimizde olmayan veriler üzerinde ne kadar iyi çalışıyor?).

E r r = E [L (Y, f (X))]

$Err = \text{E}\left[ L(Y, f(X))\right]$

Bunu yapmanın popüler bir yolu, -katlama çapraz doğrulama yapmaktır . Verilerinizi gruplarına bölün (örneğin 10). Her grup için kalan üzerinde modelinizi sığacak grup ve test edin grubuna inci. Çapraz onaylanmış ekstra örnek tahmin yalnızca burada gözlem bölümü göstermektedir bir göstergesi fonksiyonudur tahsis edilir ve tahmin edilen değer değil kullanarak veri grubu inci. $K$ $K$ $k$ $K-1$ $k$

E r r_{C V} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{- κ (i)} (x_{i}))

$Err_{CV} = \dfrac{1}{N}\sum_{i=1}^N L(y_i, f_{-\kappa(i)}(x_i))$

κ

$\kappa$

i

$i$

f_{- κ (i)} (x_{i})

$f_{-\kappa(i)}(x_i)$

x_{i}

$x_i$

κ (i)

$\kappa(i)$

Bu tahmin edici, olduğunda ve büyük varyansa sahip olduğunda gerçek tahmin hatası için yaklaşık olarak tarafsızdır ve daha büyük için hesaplamalı olarak pahalıdır . Öyleyse bir kez daha oyundaki önyargı değişimini görüyoruz. $K=N$ $K$

Çapraz doğrulama yerine, ekstra-örnek tahmin hatasını tahmin etmek için bootstrap'i kullanabiliriz. Bootstrap yeniden örnekleme, herhangi bir istatistiğin örnekleme dağılımını tahmin etmek için kullanılabilir. Eğer eğitim verilerimiz , o zaman bu setten örnekleri almayı düşünebiliriz (yerine) burada her bir örnek kümesidir . Şimdi, ekstra örnek tahmin hatasını tahmin etmek için önyükleme örneklerimizi kullanabiliriz: tahmin edilen değer için model uygunluğundan $\mathbf{X} = (x_1,\ldots,x_N)$ $B$ $\mathbf{Z}_1,\ldots,\mathbf{Z}_B$ $\mathbf{Z}_i$ $N$

E r r_{b o o t} = \frac{1}{B} \sum_{b = 1}^{B} \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f_{b} (x_{i}))

$Err_{boot} = \dfrac{1}{B}\sum_{b=1}^B\dfrac{1}{N}\sum_{i=1}^N L(y_i, f_b(x_i))$

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

b

$b$ önyükleme veri kümesi. Önyükleme örnekleri üretmek için kullanılan Ne yazık ki, bu özellikle iyi bir tahmin değildir içermiş olan . Biri dışarıda tahmincisi, çapraz doğrulama işlemini taklit ederek bir iyileştirme sunar ve burada , bootstrap örnekleri için indeks kümesidir. gözlem içermez vebu tür örneklerin sayısıdır.

f_{b} (x_{i})

$f_b(x_i)$

x_{i}

$x_i$

E r r_{b o o t (1)} = \frac{1}{N} \sum_{i = 1}^{N} \frac{1}{| C^{- i} |} \sum_{b \in C^{- i}} L (y_{i}, f_{b} (x_{i}))

$Err_{boot(1)} = \dfrac{1}{N}\sum_{i=1}^N\dfrac{1}{|C^{-i}|}\sum_{b\in C^{-i}}L(y_i,f_b(x_i))$

C^{- i}

$C^{-i}$

i

$i$

| C^{- i} |

$|C^{-i}|$

E r r_{b o o t (1)}

$Err_{boot(1)}$ aşırı yüklenme problemini çözer, ancak hala önyargılıdır (bu bir önyargılıdır). Önyargı, değiştirme örneklemesinden kaynaklanan önyükleme örneklerinde belirgin olmayan gözlemlerden kaynaklanıyor. Her numunede farklı gözlemlerin ortalama sayısı yaklaşık (neden bir açıklama için bu cevaba bakınız gözlemlerin kabaca üçte ikisini ihtiva ortalama her önyükleme numuneyi yapar Neden? ). Eğilim problemi çözmek için, Efron ve Tibshirani 0.632 kestirimcisi önerilen: burada

0.632 N

$0.632N$

E r r_{.632} = 0.368 \bar{e r r} + 0.632 E r r_{b o o t (1)}

$Err_{.632} = 0.368\overline{err} + 0.632Err_{boot(1)}$

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$ genellikle eğitim hatası olarak adlandırılan tahmin hatasının kesin tahminidir. Buradaki düşünce, aşağı doğru eğilimli bir tahmin ve yukarı doğru eğilimli bir tahminin ortalamasıdır.

Bununla birlikte, oldukça fazla bir tahmin kestirim fonksiyonuna sahipsek (yani ), .632 tahmincisi bile aşağı doğru eğilimli olacaktır. .632+ tahmincisi, ve arasında daha az taraflı bir uzlaşma olarak tasarlanmıştır . ile burada , tahmin modelini tüm olası kombinasyonlar üzerinde değerlendirerek tahmin edilen hata oranıdır. ve belirleyicisini hedefler . $\overline{err}=0$ $\overline{err}$ $Err_{boot(1)}$

E r r_{.632 +} = (1 - w) \bar{e r r} + w E r r_{b o o t (1)}

$Err_{.632+} = (1 - w) \overline{err} + w Err_{boot(1)}$

w = \frac{0.632}{1 - 0.368 R} and R = \frac{E r r_{b o o t (1)} - \bar{e r r}}{γ - \bar{e r r}}

$w = \dfrac{0.632}{1 - 0.368R} \quad\text{and}\quad R = \dfrac{Err_{boot(1)} - \overline{err}}{\gamma - \overline{err}}$

γ

$\gamma$

y_{i}

$y_i$

x_{i}

$x_i$

γ = \frac{1}{N^{2}} \sum_{i = 1}^{N} \sum_{j = 1}^{N} L (y_{i}, f (x_{j}))

$\gamma = \dfrac{1}{N^2}\sum_{i=1}^N\sum_{j=1}^N L(y_i, f(x_j))$ .

Burada , göreceli fazla takma oranını ölçer. Eğer fazla yoksa (R = 0, ) olduğunda bu .632 tahmincisine eşittir. $R$ $Err_{boot(1)} = \overline{err}$

— bdeonovic
kaynak

2

Bunlar iyi sorular, @rpierce, ama bu konunun ana başlığından biraz uzaklaşıyorlar. Özgeçmiş organizasyonu bazında, yeni bir konuya girmeleri daha iyi olur, böylece insanların daha sonra bu bilgileri bulması ve kullanması daha kolay olur.

— gung

1

Soru 1: stats.stackexchange.com/questions/96764/…

— russellpierce

1

Soru 2: en.wikipedia.org/wiki/Resampling_%28statistics%29#Jackknife yoluyla stats.stackexchange.com/questions/21023/bootstrap-vs-jackknife

— russellpierce

1

@rpierce Sorumu takip etmem biraz zorlaştıysa özür dilerim. , modelinizin uyumu ile uydurmak için kullanılan verileri karşılaştırıyor. Dolayısıyla, kare hatası için sadece

\bar{e r r} = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, f (x_{i}))

$\overline{err} = \dfrac{1}{N}\sum_{i=1}^N L(y_i,f(x_i))$

\frac{1}{n} \sum_{i = 1}^{n} (y_{i} - {\hat{y}}_{i})^{2}

$\dfrac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2$

— olurdu

1

@ rpierce, evet! Biraz genel davranıyordum çünkü bu malzemenin bir çoğunu bazı ders notlarından geri alıyordum.

— bdeonoviç

53

Bu ¹ makalenin 3. bölümünde daha fazla bilgi bulacaksınız . Ancak, özetlemek gerekirse, rasgele çizilen ve değiştirilen, den bir sayı örneği olarak çağırırsanız , ortalama olarak yaklaşık benzersiz elemanlar. $S$ $n$ $\{1:n\}$ $S$ $(1-e^{-1})\,n \approx 0.63212056\, n$

Akıl yürütme aşağıdaki gibidir. Biz doldurmak örnekleme ile den kez (rastgele ve değiştirme ile) . Belirli bir dizini düşünün . $S=\{s_1,\ldots,s_n\}$ $i=1,\ldots,n$ $\{1:n\}$ $m\in\{1:n\}$

Sonra:

P (s_{i} = m) = 1 / n

$P(s_i=m)=1/n$

ve

P (s_{i} \neq m) = 1 - 1 / n

$P(s_i\neq m)=1-1/n$

ve bu doğrudur (sezgisel olarak, değiştirmeyle , olasılıklar bağlı değildir ) $\forall 1\leq i \leq n$ $i$

Böylece

P (m \in S) = 1 - P (m \notin S) = 1 - P (\cap_{i = 1}^{n} s_{i} \neq m) = 1 - \prod_{i = 1}^{n} P (s_{i} \neq m) = 1 - (1 - 1 / n)^{n} \approx 1 - e^{- 1}

$P(m\in S)=1-P(m\notin S)=1-P(\cap_{i=1}^n s_i\neq m)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;=1-\prod_{i=1}^n P(s_i\neq m)=1-(1-1/n)^n\approx 1-e^{-1}$

Yaklaşımın kalitesini ( bağlıdır ) deneysel olarak kontrol etmek için bu küçük simülasyonu da taşıyabilirsiniz : $n$

n <- 100
fx01 <- function(ll,n){
    a1 <- sample(1:n, n, replace=TRUE)
    length(unique(a1))/n
}
b1 <- c(lapply(1:1000,fx01,n=100), recursive=TRUE)
mean(b1)

1. Bradley Efron ve Robert Tibshirani (1997). Çapraz Doğrulamadaki İyileştirmeler: .632+ Bootstrap Yöntemi . Amerikan İstatistik Derneği Dergisi , Vol. 92, No. 438, sayfa 548-560.

— user603
kaynak

3

burada sizin için referansta bir belge var - stat.washington.edu/courses/stat527/s14/readings/…

1

(+1) Çok iyi. Gösterimi sadece biraz daha standart hale getirirdim. Veriler: . IID rasgele değişkenleri , . Sonuç: .

(x_{1}, \dots, x_{n})

$(x_1,\dots,x_n)$

S_{1}, \dots, S_{n}

$S_1,\dots,S_n$

P (S_{i} = k) = \frac{1}{n} I_{{1, \dots, n}} (k)

$P(S_i=k)=\frac{1}{n}\;I_{\{1,\dots,n\}}(k)$

P (\cup_{i = 1}^{n} {S_{i} = k}) = 1 - P (\cap_{i = 1}^{n} {S_{i} \neq k}) = 1 - \prod_{i = 1}^{n} P {S_{i} \neq k} = 1 - (1 - 1 / n)^{n} \to 1 - 1 / e \approx 63.21 %

$P(\cup_{i=1}^n\{S_i=k\})=1-P(\cap_{i=1}^n\{S_i\neq k\})=1-\prod_{i=1}^n P\{S_i\neq k\}=1-(1-1/n)^n\to1-1/e\approx 63.21\%$

— Zen,

4

@ rpierce: Doğru. Cevabın şu anda "açık" bit, .

1 - e^{- 1} \approx 0.63212056

$1-e^{-1}\approx0.63212056$

— Ilmari Karonen

1

Bu cevap da harika, aslında, kabul edilen cevap artı bu cevap aslında sorumun tam cevabını veriyor - ama ikisi de Benjamin'in bir cevapta aradığım şeye daha yakın olduğunu hissediyorum. Olduğu söyleniyor - Gerçekten her ikisini de kabul etmenin mümkün olmasını diliyorum.

— russellpierce

1

@ rpierce: Celine Dion'dan alıntı yapmak için: " Kafiye / Güzellik ve canavar gibi eski zaman / şarkı kadar eskiydi." : P

— Nick Stauner

8

Tecrübelerime göre, esasen simülasyonlara dayanarak, 0.632 ve 0.632+ önyükleme varyantlarına yalnızca, doğru olmayan bir puanlama kuralının, yani "doğru bir şekilde sınıflandırılmış" oranının kullanılmasından kaynaklanan ciddi sorunlar nedeniyle ihtiyaç duyuldu. Uygun (örneğin, sapma temelli veya Brier puanı) veya yarı doğru (örneğin, -index = AUROC) puanlama kuralları kullandığınızda, standart Efron-Gong iyimserlik önyüklemesi gayet iyi çalışır. $c$

— Frank Harrell
kaynak

3

Burada söylediğin şeylerin çoğunu anladığımı sanmıyorum Frank. Aydınlatmaya hazır mısın? Katkıda bulunmak için benzersiz ve önemli bir şeyiniz var gibi görünüyor.

— russellpierce

Belirli bir soruyu belirtebilirsiniz eğer genişletmek için sevindim.

— Frank Harrell

1

Bu puanlama kuralları ... bootstrap sonucunun kalitesini değerlendiriyordu. Doğru puanlama kuralının "sınıflandırılmış" oranını tanımlayan bir bağlantı verebilir misiniz, ne tür bir canavar olabileceğini hayal etmekte zorlanıyorum. Google'da "Efron-Gong iyimserliği" için en iyi sonuçların büyük çoğunluğu sizin tarafınızdan yayınlanmış gibi görünüyor ... elemeler olmadan "açılış patlaması" dersemden ne farkı var? Hangi Effron ve Gong makalesine bakmalıyım? Birkaç var gibi görünüyor.

— russellpierce

3

Doğru sınıflandırılan oranı kullanan ve tanımlayan yaklaşık 0.632 sayılı orijinal yazıya bakınız (Efron & Tibshirani JASA 92: 548; 1997). İyimserlik önyükleme önyargıyı tahmin etmek için önyükleme biçiminin bir çeşididir. Gong: JASA 85:20; 1990.

— Frank Harrell

2

Bu cevaplar çok faydalıdır. Matematikle göstermenin bir yolunu bulamadım, bu yüzden oldukça iyi çalışan bazı Python kodları yazdım:

    from numpy import mean
    from numpy.random import choice

    N = 3000

    variables = range(N)

    num_loop = 1000
    # Proportion of remaining variables
    p_var = []

    for i in range(num_loop):
        set_var = set(choice(variables, N))
        p=len(set_var)/float(N)
        if i%50==0:
            print "value for ", i, " iteration ", "p = ",p
        p_var.append(p)

    print "Estimator of the proportion of remaining variables, ", mean(p_var)

— Anıl Narasiguin
kaynak