Bire bir çıkışta yanlılık ve varyans vs K-kat çapraz doğrulama


83

Farklı çapraz doğrulama yöntemleri, model varyansı ve önyargı açısından nasıl karşılaştırılır?

Sorumu kısmen bu konuya göre motive ediyor: katlı çapraz onaylamada en uygun kıvrım sayısı : bir kez dışarıda bırakılan CV her zaman en iyi seçenek midir? K. Buradaki cevap, bir kez dışarı bırakılan çapraz doğrulama ile öğrenilen modellerin normal katlı çapraz doğrulama ile öğrenilenden daha yüksek varyansa sahip olduğunu ve bir kez dışarıda bırakılan CV'yi daha kötü bir seçenek haline getirdiğini gösteriyor.K

Bununla birlikte, sezgim bana bir dışa çıkma CV'de, modeller arasında katlamalı CV'ye göre nispeten daha düşük bir fark görmesi gerektiğini , çünkü katlar arasında yalnızca bir veri noktasını kaydırdığımızdan ve bu nedenle kıvrımlar arasındaki eğitim kümelerinin önemli ölçüde çakıştığını söylüyor.K

Veya diğer yöne gitmek, eğer katlamalı CV'de düşükse , eğitim setleri katlar arasında oldukça farklı olacaktır ve ortaya çıkan modellerin farklı olma olasılığı daha yüksektir (dolayısıyla daha yüksek sapma).KKK

Yukarıdaki argüman doğruysa, neden bir kez dışarıda bırakılan CV ile öğrenilen modeller daha yüksek varyansa sahip olsun?


2
Selam Amelio. Xavier tarafından ve Jake Westfall'un bu yaşlı Q yeni cevap sağlanan simülasyonlar unutmayınız stats.stackexchange.com/questions/280665 , hem varyans olduğunu göstermek düşer ile . Bu, şu anda kabul edilen cevaba ve ayrıca en çok oy alan cevaba (daha önce kabul edilmiş) doğrudan aykırıdır. Varyansın ile arttığı ve LOOCV için en yüksek olduğu iddiasını destekleyen hiçbir yerde bir simülasyon görmedim . KKK
amip,

2
Thanks @amoeba Her iki cevapta da ilerlemeyi izliyorum. Kabul edilen cevabın en faydalı ve doğru olanı gösterdiğinden emin olmak için kesinlikle elimden gelenin en iyisini yapacağım.
Amelio Vazquez-Reina,

1
@amoeba bkz. Researchgate.net/profile/Francisco_Martinez-Murcia/publication/… ( ki bu değişiklik, k ile varyansta artış gösteriyor)
Hanan Shteingart

Bu grafiği nereden aldığını görmek ilginç olurdu, ilk bakışta tezine giriş bölümlerindeki açıklamalarına uyması için yapılmış gibi görünüyor. Belki de gerçek bir simülasyon ama açıklanmamıştır ve kesinlikle daha düşük olan gerçek deneylerinden bir sonuç değildir ...
Xavier Bourret Sicotte 8:18

Yanıtlar:


51

Neden bir kez dışarıda bırakılan CV ile öğrenilen modellerde daha fazla fark var?

[TL: DR] Son gönderiler ve tartışmaların özeti (Temmuz 2018)

Bu konu hem bu sitede hem de bilimsel literatürde çelişkili görüşler, sezgiler ve sonuçlar ile geniş bir şekilde tartışılmıştır. Bu soruyu ilk sorulduğunda 2013'te, baskın görüş, LOOCV'nin boyutundan örnekler üreten modeller üreten bir eğitim algoritmasının beklenen genelleme hatasının daha büyük bir sapmasına yol açtığıydı .n(K1)/K

Bununla birlikte, bu görüş, özel bir durumun yanlış bir genellemesi gibi görünüyor ve doğru cevabın şu olduğunu iddia ediyorum: "değişir ..."

Fıkralama Yves Grandvalet konuyla ilgili 2004 tarihli bir makalenin yazarını sezgisel argümanı şöyle özetleyeceğim:

  1. Çapraz validasyonun ortalamaları bağımsız tahminler ise : o zaman bir-bir-dışa CV bırakma, katlar arasında sadece bir veri noktasını değiştirdiğimizden ve bu nedenle katlar arasındaki eğitim kümeleri büyük ölçüde çakıştığı için modeller arasında nispeten daha düşük bir fark görmelidir.
  2. Eğitim setleri yüksek düzeyde korelasyon gösterdiğinde bu doğru değildir : K ile korelasyon artabilir ve bu artış ikinci senaryoda genel varyans artışından sorumludur. Sezgisel olarak, bu durumda, bir kez dışarıda bırakılan CV, var olan dengesizliklere karşı kör olabilir, ancak eğitim verilerinde tek bir nokta değiştirilerek tetiklenmeyebilir, bu da onu eğitim setinin gerçekleştirilmesinde oldukça değişken kılar.

Bu sitede kendimden ve diğerlerinden deneysel simülasyonlar , ayrıca aşağıda verilen makalelerde yer alan araştırmacılar, konuyla ilgili evrensel bir gerçek olmadığını gösterecektir. Çoğu deney, ile monoton bir şekilde azalan veya sürekli bir varyansa sahiptir , ancak bazı özel durumlar ile artan varyansa işaret eder .KKK

Bu cevabın geri kalanı, oyuncak bir örnek üzerinde simülasyon ve resmi olmayan bir literatür taraması önermektedir.

[Güncelleme] Burada aykırı değerlerin varlığında dengesiz bir model için alternatif bir simülasyon bulabilirsiniz .

Bir oyuncak örneğindeki simülasyonlarda, azalan / sabit değişkenlik

Gürültülü bir sinüs eğrisine 4 derece polinom yerleştirdiğimiz aşağıdaki oyuncak örneğini düşünün. Bu modelin, öğrenme eğrisi tarafından gösterildiği gibi, fazla uydurma nedeniyle küçük veri kümeleri için yetersiz ücret almasını bekliyoruz.

görüntü tanımını buraya girin

Resmi ESLII sayfa 243'den tekrarlamak için buraya 1 - MSE yazdığımızı unutmayın.

 metodoloji

Bu simülasyon kodunu burada bulabilirsiniz . Yaklaşım şuydu:

  1. Dağıtım 10,000 sayı oluşturmak gerçek varyans burada biliniyorsaϵsin(x)+ϵϵ
  2. Yineleme kez (örneğin, 100 ya da 200 kez). Her yinelemede, dağılımını orijinal dağılımdan örnekleyerek veri kümesini değiştirinNiN
  3. Her veri seti için : i
    • Bir değeri için K katlama çapraz doğrulama yapınK
    • Ortalama Ortalama Kare Hata (MSE) 'yı K katlarına kaydedin
  4. üzerindeki döngü tamamlandıktan sonra, aynı değeri için veri setlerinde MSE'nin ortalama ve standart sapmasını hesaplayıni KiiK
  5. Bir Kesişme CV (LOOCV) bırakma yolu boyunca aralığındaki tüm için yukarıdaki adımları tekrarlayın{ 5 , . . . , N }K{5,...,N}

Etkisi Yanlılığının ve MSE Varyans genelinde üzerine veri kümeleri.iKi

Sol Taraf : 200 veri noktası için Kfolds, Sağ Taraf : 40 veri noktası için Kfolds

görüntü tanımını buraya girin

MSE'nin Standart Sapması (i veri setinde) vs Kfolds

görüntü tanımını buraya girin

Bu simülasyondan, öyle görünüyor:

  • Az sayıda için artan veri noktası, kadar kadar önemli ölçüde ya da eğilim ve varyans da kolaylaştırılır. Daha büyük yanlılık ya da sapma üzerinde herhangi bir etkisi yoktur.K K = 10 KN=40KK=10K
  • Sezgi, çok küçük etkili bir eğitim boyutu için, polinom modelinin, özellikle için çok dengesiz olduğuK5
  • Daha büyük - artan , hem sapma hem de sapma üzerinde belirli bir etkiye sahip değildir.KN=200K

Gayri resmi bir literatür taraması

Aşağıdaki üç makale çapraz onaylamanın önyargısını ve varyansını araştırmaktadır.

Kohavi 1995

Bu makale genellikle LOOC'un daha yüksek varyansa sahip olduğu argümanının kaynağı olarak anılır. 1. bölümde:

“Örneğin, son kullanma tarihi neredeyse tarafsız, ancak güvenilmez tahminlere yol açan yüksek varyansa sahip (Efron 1983)”

Bu açıklama çok karışıklık kaynağı çünkü 1983'te Efron'dan Kohavi değil gibi görünüyor. Hem Kohavi'nin teorik argümanları hem de deneysel sonuçları bu ifadeye aykırıdır :

Corollary 2 (CV'de Varyans)

Bir veri kümesi ve bir indükleyici verildi. Eğer indüktör, k katlama CV'sindeki katlamaların test örneklerinin çeşitli değerleri için silinmesinin neden olduğu bozulmaların altında stabil ise, tahminin farkı aynı olacaktır.k

Deneme Yaptığı deneyde, Kohavi iki algoritmayı karşılaştırır: bir C4.5 karar ağacı ve UC Irvine deposundaki birden fazla veri setinde bir Naive Bayes sınıflandırıcısı. Sonuçları şöyle: LHS, kıvrımlara karşı doğruluk (önyargı) ve RHS, kıvrımlara karşı standart sapmadır.

görüntü tanımını buraya girin

Aslında, sadece üç veri setindeki karar ağacı açıkça K'nın artması için daha yüksek bir varyansa sahiptir. Diğer sonuçlar azalmakta veya sürekli bir farklılık göstermektedir.

Son olarak, sonuç daha güçlü bir şekilde ifade edilebilse de, LOO için tam tersi bir değişkenlik gösteren bir tartışma yoktur. Bölüm 6'dan. Özet

"Orta k değerleri (10-20) ile k-katlama çapraz doğrulama varyansı azaltır ... k-azaldıkça (2-5) ve örnekler küçüldükçe, eğitim setlerinin kararsızlığı nedeniyle değişkenlik vardır.

Zhang ve Yang

Yazarlar bu konuda güçlü bir görüşe sahip ve Bölüm 7.1'de açıkça belirtilmişlerdir.

Aslında, en azından kareler doğrusal regresyonda, Burman (1989) k-katlamalı CV'ler arasında, tahmin hatasını tahmin ederken, LOO'nun (yani, n-katlamalı CV) en küçük asimptotik yanlılığa ve varyansa sahip olduğunu göstermektedir. ...

... O zaman teorik bir hesaplama ( Lu , 2007), LOO’nun tüm silme-n CV’lerinde en düşük önyargı ve varyansa sahip olduğunu ve tüm olası n_v silmeleri göz önüne alındığını gösteriyor

Deneysel sonuçlar Benzer şekilde, Zhang'in deneyleri, True model ve aşağıda Şekil 3 ve Şekil 5 için yanlış model için gösterildiği gibi, K ile varyansı azaltma yönüne işaret etmektedir.

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Varyansın ile arttığı tek deney Lasso ve SCAD modelleri içindir. Bu sayfa 31'de açıklanmıştır:K

Bununla birlikte, eğer model seçimi söz konusuysa, LOO'nun performansı büyük model alanı, küçük ceza katsayıları ve / veya veriye dayalı ceza katsayılarının kullanımı nedeniyle model seçim belirsizliği arttıkça değişkenlik bakımından kötüleşir.


11
11! Sonunda açık bir simülasyon ile bir cevap! Ve doğrudan şu anda kabul edilmiş ve en çok oy alan cevapların sonuçlanmasına karşı çıkıyor. Sonucunuzla ilgili olarak: eğer gerçekten "model istikrarı kilit bir faktördür" ise, o zaman varyansın ile artacağı bir simülasyon hazırlayabilmelisiniz . İki simülasyon gördüm: sizinki ve bu hem de her ikisi de varyansın ile azaldığını veya sabit kaldığını gösteriyor . Değişen varyanslı bir simülasyon görene kadar, şimdiye dek yaptığı kadar şüpheci kalacağım. KKK
amip

4
@ amoeba, LOOCV'nin başarısız olduğu bir durum: n veri noktalarını ve n derece enterpolasyonlu bir polinomu düşünün. Şimdi, mevcut her noktaya bir kopya hakkı ekleyerek veri noktalarının sayısını iki katına çıkarın. LOOCV, hatanın sıfır olduğunu söylüyor. Yararlı bilgi almak için kıvrımları düşürmeniz gerekir.
Paul,

2
Bu tartışmaya ilgi duyanlar için
Xavier Bourret Sicotte

1
Örneğin olan tekrarlamaya izin verdiğini düşündün mü ? Bu LOOCV'da bir seçenek değildir ve bu nedenle dikkate alınmalıdır. k = 10kfoldk=10
D1X

1
@ amoeba: yeniden Kohavi / LOO ve varyans. Bazı sınıflandırma modelleri için LOO’nun oldukça şaşırtıcı bir şekilde kararsız olabileceğini öğrendim . Bu, özellikle küçük örneklem büyüklüğü ile okunur ve bunun her zaman yeterince temsil edilmeyen sınıfa ait test durumuyla ilgili olduğunu düşünüyorum. Bütün örnek: İkili sınıflandırmada tabakalı terk-2-out, bu problemin var gibi görünmüyor (ama kapsamlı bir şekilde test etmedim). Bu dengesizlik, LOO'nun diğer k seçimlerinden yapışmasını sağlayarak, gözlenen varyansa katkıda bulunur. IIRC, bu Kohavi'nin bulgularıyla uyumlu.
cbeleites

45

Gelen kat çapraz doğrulama biz bir veri kümesi bölme eşit büyüklükte olmayan üst üste alt kümeler . Her kat için bir model üzerinde eğitilmiştir sonra değerlendirilir, . Örneğin tahmin hatasının çapraz doğrulama tahmincisi, her katlamada elde edilen tahmin hatalarının ortalaması olarak tanımlanır.k S S i S S i S ikkSSiSSiSi

Modellerin değerlendirildiği test setleri arasında örtüşme olmamasına rağmen, tüm için eğitim setleri arasında örtüşme vardır . Örtüşme, bir-bir-dış çapraz doğrulama için en büyüğüdür. Bu, öğrenilen modellerin bağıntılı, yani bağımlı olduğu ve bağıntılı değişkenlerin toplamının varyansının kovaryans miktarı ile arttığı anlamına gelir ( bakınız wikipedia ):k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

Bu nedenle, bir kez dışarıda bırakılan çapraz doğrulama, daha küçük değerine sahip CV'ye kıyasla büyük farklılık gösterir .k

Ancak, iki katlı çapraz onaylamanın üst üste binen eğitim setleri sorununa sahip olmamasına rağmen, eğitim setlerinin orijinal numunenin sadece yarısı büyüklüğünde olması nedeniyle sıklıkla değişkenlik gösterdiğini de unutmayın. İyi bir uzlaşma, on kat çapraz doğrulamadır.

Bu konuya değinen bazı ilginç makaleler (daha fazlası):


5
+1 (uzun zaman önce), ancak cevabınızı şimdi tekrar okuduğumda, aşağıdaki parça ile kafam karıştı. 2 katlı CV'nin "eğitim setlerinin sadece yarısı büyüklüğünde olmasından dolayı, sıklıkla değişkenlik gösterdiğini" söylüyorsunuz. İki kat daha küçük bir eğitim almanın bir sorun olduğunu anlıyorum, ama neden "büyük varyans" veriyor? Bunun yerine "büyük önyargı" olmamalı mı? Ardından, kat sayısını seçme meselesi, genellikle nasıl sunulduğunu gösteren bir sapma sapması takası olur.
amip,

1
Bu bağlamda "varyans" "birikmiş" model performansının varyans atıfta düşünüyorum @Sebastian (baştan özetlemek kıvrımlar varyansı kıvrımlar) ve kendilerini son iki cümleyle ima olarak,. k
amip

3
Sadece bazı edebiyatı araştırıyordum. İlginç bir şekilde, İstatistiksel Öğrenmeye Giriş James, Witten, Hastie ve Tibshirani, LOOCV'nin "değişken olduğunu, çünkü tek bir gözleme dayandığını söyledi (x1, y1)." ve İstatistiksel Öğrenme Öğelerinde Hastie & Tibshirani & Friedman, LOOCV'nin "N eğitim setleri birbirine çok benzer olduğu için yüksek değişkenliğe sahip olabileceğini" söylüyor.

2
bu yanlış. Varyans olmalıdır = . Numaralandırıcının daha büyük olduğu konusunda haklısın ama payda da büyüyor. var[Σxi/n]ΣΣcov(xi,xj)/n2
kuzeydeki

3
Hayır, bu gerçekten "bütün mesele" değil. İnsanlar her zaman tek bir küresel tahmin almak için k-fold CV kullanıyorlar. Kesinlikle çok katlı tahminleri başka şekillerde de kullanmayı deneyebilirsiniz, ancak bunları bir araya getirmek, bir modelleme tekniğinin kopma performansını tahmin etmenin en yaygın yollarından biridir. Ve tam olarak ESL 7.48'in yaptığı şey de budur.
Paul,

27

[...] sezgim, bana bir kez dışarıda bırakılan CV'de, modeller arasında katlamalı CV'ye göre nispeten daha düşük bir fark görmesi gerektiğini , çünkü katlar arasında yalnızca bir veri noktasını değiştirdiğimizi ve dolayısıyla eğitimin katlar arasında değiştiğini söylüyor önemli ölçüde örtüşme.K

Bence, her biri bir-bir-dışa katlama katında modellerin yaptığı tahminleri düşünüyorsanız, sezginizin mantıklı olduğunu düşünüyorum. Bunlar korelasyonlu / çok benzer verilere (tam veri kümesi eksi bir veri noktası) dayanmaktadır ve bu nedenle benzer tahminler yapacaktır - yani düşük değişkenlik.

Bununla birlikte, kafa karışıklığının kaynağı, insanlar LOOCV hakkında yüksek değişkenliğe yol açan hakkında konuştuklarında, bekleme gruplarında çapraz onaylama döngüsü sırasında oluşturulan birçok model tarafından yapılan tahminlerden bahsetmiyor olmalarıdır. Bunun yerine, son seçilen modelinizin (LOOCV ile seçilen model) ne kadar değişkenlik yapabileceğinden bahsediyorlar - eğer bu model / parametreleri yeni eğitim setleri üzerine eğitirseniz - modelinizin daha önce görmediği eğitim setleri. Bu durumda, değişkenlik yüksek olacaktır.

Değişkenlik neden yüksek olsun? Bunu biraz basitleştirelim. Bir model seçmek için LOOCV kullanmak yerine, sadece bir eğitim setine sahip olduğunuzu ve daha sonra bu eğitim verilerini kullanarak oluşturulmuş bir modeli test ettiğinizi düşünün, örneğin, 100 tek test veri noktasında 100 kez test edin (veri noktaları eğitim setinin bir parçası değildir) . Bu 100 testte en iyisini yapan model ve parametre setini seçerseniz, bu özel eğitim setinin test verilerini tahmin etmede gerçekten iyi olmasını sağlayan bir model seçersiniz. Belirli bir eğitim veri seti ile uzak durma verileri arasındaki ilişkilerin% 100'ünü yakalayan bir model seçebilirsiniz. Ne yazık ki, eğitim ve test veri setleri arasındaki bu ilişkilerin bir kısmı gürültü ya da sahte dernekler olacaktır, çünkü test seti değişse ve bu taraftaki gürültüyü tanımlayabilseniz de, Eğitim veri kümesi yok ve açıklamanın varyansın gürültüden kaynaklandığını belirleyemiyorsunuz. Başka bir deyişle, bunun anlamı, bu belirli eğitim veri setine ilişkin öngörülerinize uymamaktır.

Şimdi, bu modeli yeni eğitim setlerinde aynı parametrelerle defalarca tekrar eğitmek isteseydiniz ne olurdu? Eh, belirli bir eğitim verisine uygun bir model, eğitim seti değiştiği zaman tahmininde değişkenliğe yol açacaktır (yani, eğitim setini biraz değiştiriniz ve model öngörülerini büyük ölçüde değiştirecektir).

LOOCV'deki tüm kıvrımlar birbirleriyle korele olduğu için yukarıdaki duruma benzer (aynı eğitim seti; farklı test noktaları). Başka bir deyişle, eğer bu belirli eğitim setinin bu test puanlarıyla sahte bir korelasyonu varsa, modeliniz hangi korelasyonların gerçek ve sahte olduğunu belirlemekte zorluk çekersiniz, çünkü test setinin değişmesine rağmen eğitim seti değişmez.

Buna karşılık, daha az ilişkili eğitim katları, modelin birden fazla benzersiz veri kümesine sığacağı anlamına gelir. Dolayısıyla, bu durumda, modeli başka bir yeni veri setinde yeniden eğitirseniz, benzer bir tahminde bulunacaktır (örneğin, küçük değişkenlik).


4
Bence bu cevap kabul edilen cevaptan çok daha fazla açıklığa kavuşturuyor ve özellikle kabul edilen cevapları açıklıyor.
D1X

Ne demek istiyorsun? "" Şimdi, bu modeli aynı parametrelerle yeni eğitim setlerinde birkaç kez yeniden eğitmek isteseydiniz ne olurdu? "derken ne demek istiyorsunuz? Eğitim, parametreleri bulmak demektir, değil mi? hiperparametre mi demek istedin?
MiloMinderbinder

14

Bu soru oldukça eski olmasına rağmen, ek bir cevap daha eklemek istiyorum, çünkü bunu biraz daha açıklığa kavuşturmaya değer olduğunu düşünüyorum.

Sorumu kısmen bu konuya göre motive ediyor: K-katlama çapraz onaylamada en uygun kıvrım sayısı: bir-bir-dışa CV her zaman en iyi seçim midir? . Buradaki cevap, bir kez dışarı bırakılan çapraz doğrulama ile öğrenilen modellerin normal K-katlama çapraz doğrulama ile öğrenilenden daha yüksek varyansa sahip olduğunu ve bir kez dışarıda bırakılan CV'yi daha kötü bir seçenek haline getirdiğini gösteriyor.

Bu cevap, bunu önermez ve söylememelidir. Orada verilen cevabı gözden geçirelim:

Bire bir arada bırakılma çapraz onaylama genellikle K-katlamadan daha iyi performansa yol açmaz ve göreceli olarak yüksek bir varyansa sahip olduğundan daha kötü olma olasılığı yüksektir (yani değeri, farklı veri örnekleri için değerinden daha fazla değişir. k-katlama çapraz doğrulama).

Performans hakkında konuşuyor . Burada performans , model hata tahmincisinin performansı olarak anlaşılmalıdır . K-fold veya LOOCV ile tahmin ettiğiniz şey, hem model seçmek için hem de kendi başına bir hata tahmini sağlamak için bu teknikleri kullanırken model performansıdır. Bu, model varyansı DEĞİL, bu, hatanın tahmin edicisinin (modelin) varyansıdır. Bkz , örneğin (*) körüğü.

Bununla birlikte, sezgim bana bir kez dışarıda bırakılan CV'de, modeller arasında K-katlamalı CV'ye göre nispeten daha düşük bir fark görmesi gerektiğini, çünkü katlar arasında yalnızca bir veri noktasını kaydırdığımızdan ve bu nedenle kıvrımlar arasındaki eğitimin önemli ölçüde üst üste geldiğini söylüyor.

Nitekim, modeller arasında daha düşük farklılıklar vardır, Ortak gözlemleri olan veri setleri ile eğitilmiştir ! As arttıkça, onlar (hayır stochasticity varsayarsak) hemen hemen aynı model haline.n2n

Tam olarak bahsettiğim tahmin ediciye neden olan modeller arasındaki bu daha düşük varyans ve daha yüksek korelasyondur, çünkü bu tahmin edici, bu korelasyonlu niceliklerin ortalamasıdır ve korelasyonel veri ortalamasının varyansı, ilişkisiz verilerinkinden daha yüksektir. . İşte neden gösterilmiştir: korelasyonlu ve ilişkisiz veri ortalamasının varyansı .

Veya diğer yöne gitmek, eğer K-katlamalı CV'de K düşükse, eğitim setleri katlar arasında oldukça farklı olacaktır ve ortaya çıkan modellerin farklı olma olasılığı daha yüksektir (dolayısıyla daha yüksek sapma).

Aslında.

Yukarıdaki argüman doğruysa, neden bir kez dışarıda bırakılan CV ile öğrenilen modeller daha yüksek varyansa sahip olsun?

Yukarıdaki argüman doğru. Şimdi, soru yanlış. Modelin varyansı tamamen farklı bir konudur. Rasgele bir değişkenin olduğu bir varyans vardır. Makine öğreniminde, özellikle bunlarla sınırlı olmamak üzere birçok rastgele değişkenle uğraşırsınız: Her gözlem rastgele bir değişkendir; örnek rastgele bir değişkendir; Model, rastgele bir değişkenden eğitildiği için rastgele bir değişkendir; popülasyonla karşılaştığında modelinizin üreteceği hatanın tahmincisi rastgele bir değişkendir; ve son fakat en az olmayan, modelin hatası rastgele bir değişkendir, çünkü popülasyonda gürültü olması muhtemeldir (buna indirgenemez hata denir). Model öğrenme sürecinde yer alan stokastiklik varsa, daha fazla rastgelelik de olabilir. Tüm bu değişkenler arasında ayrım yapmak çok önemlidir.


(*) Örnek : gerçek hata ile bir model olduğunu varsayalım anlamanız gereken, modeli tüm nüfus üzerinde ürettiğini hata olarak. Bu popülasyondan bir örnek aldığınız için , adını verebileceğimiz bir tahmini hesaplamak için bu örnek üzerinde Çapraz doğrulama tekniklerini kullanırsınız . Her tahmin edicinin olduğu gibi, rastgele bir değişkendir, yani kendi varyansı vardır, ve kendi önyargısı . kesinlikle LOOCV kullanırken daha yüksek olanıdır. LOOCV, daha az önyargılı bir tahminci olsa daerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<n , daha fazla varyansa sahiptir. Önyargı ve varyans arasında neden bir uzlaşmanın istendiğini daha fazla anlamak için , olduğunu ve iki tahmin edicinizin olduğunu varsayalım : ve . İlki bu çıktıyı üretiyorerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
ikincisi
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

Sonuncusu, daha fazla önyargıya sahip olmasına rağmen, çok daha az bir varyansa ve kabul edilebilir bir önyargıya, yani bir uzlaşma ( önyargı-varyans değiş tokuşuna ) sahip olması nedeniyle tercih edilmelidir . Lütfen bunun yüksek önyargıya neden olması durumunda hiçbir zaman çok düşük farkı istemediğinizi unutmayın.


Ek not : Bu cevapta , bu konuyu çevreleyen yanlış anlaşılmaları (sanırım ne olduğunu) açıklamaya çalışıyorum ve özellikle de sorunun ne olduğunu ve kesin olarak şüphelerini açıklamaya çalışıyorum. Özellikle, hangi değişkenlikten bahsettiğimizi , esasen burada ne istendiğini açıklamaya çalışıyorum. Yani OP ile bağlantılı cevabı açıklarım.

Olduğu söyleniyor, ben iddia arkasındaki teorik akıl yürütme sağlarken, biz onu destekleyen, henüz kesin bir ampirik kanıt bulduk. Bu yüzden lütfen çok dikkatli olun.

İdeal olarak, önce bu yazıyı okumalısınız ve sonra ampirik yönleriyle ilgili derinlemesine bir tartışma sağlayan Xavier Bourret Sicotte'nin cevabına bakmalısınız.

Son fakat en az değil, başka bir şey göz önünde bulundurulmalıdır: arttıkça değişkenlik düz kalsa bile (aksi halde ispatlanmadığımız gibi), ile , kük tekrarlama için izin verir ( tekrarlanan k katlama ), kesinlikle yapılması gereken, örneğin . Bu, varyansı etkili bir şekilde azaltır ve LOOCV'yi gerçekleştirirken bir seçenek değildir.kkfoldk10 x 10 - f o l d10 × 10fold


2
Lütfen Xavier tarafından verilen yeni cevapta ve ayrıca bu eski Q'da Jake Westfall tarafından yapılan simülasyonların , varyansın ile azaldığını gösterdiğini lütfen unutmayın . Bu doğrudan cevabınızla çelişir. Şimdiye kadar varyansın ile arttığı ve LOOCV için en yüksek olduğu iddiasını destekleyen bir simülasyon görmedim . KKK
amip,

3
Varyansın , düz kaldığı belirli bir noktaya kadar kadar azaldığını gösterir . Teorik olarak korelasyonlu örneklerin ortalamasının daha fazla varyansa sahip olduğu, dolayısıyla sonucu teorik olarak gösterdiği gösterilmiştir. Olduğu söyleniyor, haklısın, bunun eksik olduğunu gösteren gerçek bir deney . İnşa etmek için elimden geleni yapacağım. kN
D1X

Evet ile azalma dan için Xavier yanıtında bir hata nedeniyle oldu. Şimdi sabittir ve varyans gerçekten de bu aralıkta aynı kalır. İki bağımsız simülasyonun aynı etkiyi gösterdiği göz önüne alındığında, LOOCV'nin daha yüksek varyansa sahip olabileceği konusunda şüpheci olmaya devam ediyorum. Teorik argüman çok el sallıyor. Korelasyonlu örneklerin ortalaması, sadece diğer her şey aynı olduğunda daha yüksek varyansa sahiptir. N kat CV vs 10 kat için her şeyin aynı olduğu açık değildir. Senin simülasyon bekliyorum. K = 10 K = NKK=10K=N
amip

1
Bu gazetelere henüz bakmadım, zamanım olduğunda onlara bir göz atacağım. Yine de, OLS doğrusal modelleri çok basit modellerdir, aslında kendilerini düşük varyansa maruz bırakırlar. Sadece bu değil, Çapraz doğrulama için kapalı formüllere sahipler.
D1X

1
+ 1 düzenlemeleriniz cevabı çok daha net bir şekilde ortaya koyuyor - eğitim setleri arasındaki korelasyonun etkisiyle aynı hizadayız -> daha yüksek varyans. Yine de pratikte (deneysel olarak) eğitim setlerinin her zaman birbiriyle korele olmadığı görülmektedir.
Xavier Bourret Sicotte 7:18

12

Sorunlar gerçekten ince. Ancak, LOOCV'nin genel olarak daha büyük bir varyansa sahip olduğu kesinlikle doğru değildir. Yeni bir makale bazı kilit hususları tartışıyor ve çapraz doğrulama konusundaki görünüşte yaygın yanlış anlaşılmaları ele alıyor.

Yongli Zhang ve Yuhong Yang (2015). Bir model seçim prosedürü seçmek için çapraz doğrulama. Ekonometri Dergisi, vol. 187, 95-112.

Aşağıdaki kavram yanılgıları literatürde şimdiye dek sıkça görülmektedir:

"Biri Dışarıda Bırakma (LOO) CV, daha az önyargıya sahiptir, ancak dışarıda bırakılan CV'den daha büyük farklılık gösterir"

Bu görüş oldukça popüler. Örneğin, Kohavi (1995, Kısım 1) şunları ifade etmektedir: "Örneğin, bir-bir-dışarı bırakma neredeyse tarafsızdır, ancak yüksek değişkenliğe sahiptir, bu da güvenilmez tahminlere yol açmaktadır". Ancak ifade genel olarak doğru değildir.

Daha ayrıntılı olarak:

Literatürde, son yayınlar dahil olmak üzere bile, aşırı tavsiyeler alınmıştır. Kohavi'nin (1995) 10 katlı CV kullanması konusundaki genel öneri yaygın olarak kabul görmüştür. Örneğin, Krstajic ve arkadaşları (2014, sayfa 11): “Kohavi [6] ve Hastie ve arkadaşları [4] ampirik olarak, bir-bir-dış çapraz onaylama ile karşılaştırıldığında V-kat çapraz onaylamanın daha düşük bir varyansa sahip olduğunu göstermektedir”. Sonuç olarak, tüm sayısal araştırmaları için 10 katlı CV'nin (tekrarlamalı) önerisini alırlar. Bize göre, böyle bir uygulama yanıltıcı olabilir. Öncelikle, CV kullanımı amacını dikkate almayan herhangi bir genel öneri olmamalıdır. Özellikle, Önyargı ve aday model / modelleme prosedürünün CV doğruluk tahmininin varyansının incelenmesi optimal model seçiminden çok daha farklı olabilir (daha önce belirtilen model seçiminin iki amacı ile). İkincisi, doğruluk tahmini bağlamı ile sınırlı olsa bile, ifade genellikle doğru değildir. Düşük kararsızlığa sahip modeller / modelleme prosedürleri için, LOO genellikle en küçük değişkenliğe sahiptir. Ayrıca yüksek oranda dengesiz prosedürler (örneğin, n'den daha büyük pn LASSO) için, değişkenliği azaltırken 10 kat veya 5 kat CV'lerin, daha kötü yanlılık artışından dolayı LOO'dan önemli ölçüde daha büyük MSE'ye sahip olabileceğini gösterdik. Düşük kararsızlığa sahip modeller / modelleme prosedürleri için, LOO genellikle en küçük değişkenliğe sahiptir. Ayrıca yüksek oranda dengesiz prosedürler (örneğin, n'den daha büyük pn LASSO) için, değişkenliği azaltırken 10 kat veya 5 kat CV'lerin, daha kötü yanlılık artışından dolayı LOO'dan önemli ölçüde daha büyük MSE'ye sahip olabileceğini gösterdik. Düşük kararsızlığa sahip modeller / modelleme prosedürleri için, LOO genellikle en küçük değişkenliğe sahiptir. Ayrıca yüksek oranda dengesiz prosedürler (örneğin, n'den daha büyük pn LASSO) için, değişkenliği azaltırken 10 kat veya 5 kat CV'lerin, daha kötü yanlılık artışından dolayı LOO'dan önemli ölçüde daha büyük MSE'ye sahip olabileceğini gösterdik.

Genel olarak, Şekil 3-4'ten LOO ve tekrarlanan 50 ve 20 kat CV'ler burada en iyisidir, 10 kat daha kötüdür ve k-5 açıkça zayıftır. Tahmini performans tahmini için, LOO’nun sabit bir model için en iyisi veya en iyisi olduğuna ya da hem önyargılı hem de değişkenli olarak çok istikrarlı bir modelleme prosedürünün (bağlamımızdaki BIC gibi) olduğuna inanıyoruz. Daha kararsız bir işlem için MSE (örneğin, AIC veya hatta ASSn ile LASSO). 10 kat CV (tekrarlı) kesinlikle en iyisi olabilir, ancak daha sık olabilir, ancak garip bir konumdadır: tahmin hatası tahmini için LOO’dan (önyargı probleminden dolayı) daha risklidir ve genellikle silmekten daha kötüdür. -n / 2 En iyi adayı belirlemek için CV.


4
Bu cevabı biraz genişletmek, belki de makalede ortaya konan bazı kilit hususları özetlemek mümkün mü?
Silverfish,

3
Çok ilginç bir makale. Kohavi'yi (1995) gözden geçirirken, birçok ifadenin imkansız biçimde geniş ve büyük ölçüde dayanılmaz olduğunu hissettim. Kritik sorgulaması çoktan gecikmiş olan bir halk hikâyesi kağıdıdır.
Paul

3

Önyargı ve varyans hakkında konuşmadan önce ilk soru:

Çapraz doğrulama ile tahmin edilen nedir?

Bizim ise 2004 JMLR kağıt , herhangi daha varsayımı olmaksızın, iddia çapraz doğrulama boyutu numuneleri dışında modeller üreten bir eğitim algoritmasının beklenen genelleme hatası tahminleri kat . Buradaki beklenti, eğitim örnekleri ile ilgili. Bu görüşe göre, değiştirilmesi, tahmini miktarın değiştirilmesi anlamına gelir: farklı değerleri için önyargı ve varyansın karşılaştırılması daha sonra dikkatli yapılmalıdır., n ( K - 1 ) / K K KKn(K1)/KKK

Bununla birlikte, varyansın ile monoton bir şekilde azaldığını veya ara bir değer için minimum olabileceğini gösteren deneysel sonuçlar veriyoruz . İlk senaryonun kararlı algoritmalar (mevcut veri dağıtımı için) ve ikincisinin kararsız algoritmalar için karşılaşılması gerektiği kanısındayız.K

sezgilerim bana bir dışa çıkma özgeçmişinde CV'nin, modeller arasında katlamalı CV'ye göre nispeten daha düşük bir fark görmesi gerektiğini , çünkü katlar arasında yalnızca bir veri noktasını değiştirdiğimizi ve bu nedenle katlamalar arasındaki eğitimin büyük ölçüde üst üste geldiğini söylüyor .K

Çapraz doğrulama, bağımsız tahminlerin ortalaması alındığında bu sezgi doğru olacaktır, ancak bunlar oldukça korelasyonlu olabilir ve bu korelasyon ile artabilir . Bu artış, yukarıda belirtilen ikinci senaryoda görülen genel fark artışından sorumludur. Sezgisel olarak, bu durumda, bir kez dışarıda bırakma özgeçmişi var olan dengesizliklere karşı kör olabilir, ancak eğitim verilerinde bir eğitim noktasının değiştirilmesiyle tetiklenmeyebilir, bu da eğitim setinin gerçekleştirilmesine çok değişkendir.K


4
+1. CrossValidated'e Hoşgeldiniz! Tartışmaya katılmanızı görmek harika. 2004 belgenizi hafızada yenilemek için yeniden okumam gerekir, ancak insanların CV'de pratikte kullandıkları algoritmaların kararlı mı yoksa kararsız mı olduğunu merak ediyorum? Burada iki simülasyonlar gördüm: polinom uydurma kullanarak bir tane ve başka kullanılarak regresyon . Her iki durumda da, ile LOOCV'a kadar varyans azalıyordu . Farklı bir sonucu gözlemlemek için ne tür bir algoritma kullanılmalıdır? K
amip,

0

Daha basit bir cevap olduğunu düşünüyorum. K değerini artırırsanız, test setleri küçülür ve küçülür. Kıvrımlar rastgele örneklendiğinden, küçük test setleri ile olabilir, ancak daha büyük olanlar için rastlantısal bir karışıklığı temsil etmemeleri muhtemel değildir. Bir test seti, tahmin edilmesi zor tüm kayıtları ve diğer tüm kolay kayıtları içerebilir. Bu nedenle, kat başına çok küçük test kümelerini tahmin ettiğinizde değişkenlik yüksektir.


Teşekkürler. İlginç bir şekilde, bu argüman, şu anda kabul edilen cevabında sunulana biraz ortogonal görünüyor, ki eğer doğru anladıysam, bunun yerine eğitim kıvrımları arasındaki kovaryansa odaklanıyor . Bu cevabı @ ile nasıl ilişkilendirdiğinizi görmek güzel olurdu . Xi
Amelio Vazquez-Reina,

4
Çapraz doğrulama sırasındaki bekleme gruplarındaki model tahminlerindeki değişkenlikten bahsediyor gibisiniz. Bunun pek ilgi çekici olduğunu sanmıyorum. Nihai ayarlanmış modelinizin, farklı veriler üzerinde eğitilmiş olması durumunda yaptığı öngörülerde büyük ölçüde değişiklik gösterip göstermeyeceği konusu ilgi çekicidir (ör. Modelinizin gerçeğe yönelik tahmini, eğitim setine bağlı olarak gerçekten değişkendir)
captain_ahab

Ve o zamanlar bilinmeyen ardışık olarak öngörülen veri kümeleri arasında gözlenen değişikliklerle olmasa da henüz görülmemiş verilerdeki beklenen değişimi nasıl tahmin edersiniz? Anladığım kadarıyla, yalnızca deney düzeneğinden kaynaklanan değişkenlik ilgi çekici değildir. Cevabım: Bu nedenle, yeni çeşitlilikler getirmeyen deneysel bir kurulum seçilmesi gerekiyor. Böyle bir durumda, iki tür değişkenlik birbirinden ayrılamaz ve ilgilenilen bir türün süresini tahmin etmek zorlaşır.
David Ernst,

1
Bunu simülasyonlarla gösterebilirsiniz (Ben bir makale arayacağım). Birbirimizle konuşup konuşamayacağımızdan emin değilim - ama acele ve insanlar LOOCV'daki eğitim setleri arasındaki yüksek korelasyondan bahsederken, temelde aynı eğitim veri setinde modelinizi eğitmeye devam ettiğinizi vurgulamaktadırlar. Bu, eğitim veri setine fazla uydurulmasına yol açar. Eğitim veri setini değiştirdiğinizde, test örneği X için tahminlerin çok değişeceği tahminleri modeller. aksine, eğer eğitim setleri daha az ilişkilendirilmiş olsaydı, tamamen yeni bir eğitim seti kullanabilir ve test örneği X için benzer bir öngörü elde edersiniz.
captain_ahab

Bence iki ayrı konu var. K seviyesinin arttırılması, bahsettiğiniz sonuçları doğuran eğitim setleri arasında daha fazla örtüşmeye neden olur. (Bunlardan hiçbiriyle tartışmıyorum) Aynı zamanda, k'nin arttırılması kat başına daha küçük test setlerine yol açar, bu da kayıtların bu setlerde istenmeyen şekillerde karıştırılma ihtimalinin daha yüksek olduğu anlamına gelir. Sorulan belirli bir soru için, bunun asıl sebep olduğunu düşünüyorum. Eğitim setinin örtüşmesinden de katkı olabilir. (Tekrarları kullandığınızda üçüncü bir sorun var çünkü test kümeleri de örtüşüyor.)
David Ernst
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.