Varyans


37

TL, DR: O görünür aksine tavsiye sık sık tekrarlanan, çapraz doğrulama (Loo-CV) terk-on Çıkış - olup,ile kat CV(kat sayısı) eşit(numara Eğitim gözlemlerinin) -Model / algoritma, veri seti veya her ikisinde debelirli bir stabilite koşuluvarsayarsak, en değişken değil,herhangi biriçinen az değişkenolan genelleme hatasının tahminlerini verir(hangisinden emin değilim) bu kararlılık durumunu gerçekten anlamadığım için doğrudur).K N KKKN-K

  • Birisi bu stabilite koşulunun tam olarak ne olduğunu açıkça söyleyebilir mi?
  • Doğrusal regresyonun, bu bağlamda, LOO-CV'nin genelleme hatası tahminlerinin yanlılığı ve sapmasıyla ilgili olarak kesinlikle en iyi CV seçimi olduğu anlamına gelen doğru bir algoritma olduğu doğru mu?

Geleneksel bilgelik seçimi olmasıdır içinde K kat CV bir önyargı-varyans dengeyi izler, böyle düşük değerler K (2 yaklaşan) daha kötümser önyargı var genelleme hatasının tahminlerine kurşun, ancak daha düşük varyans, yüksek değerler ise ve K (yaklaşan N az eğilir fakat daha büyük bir varyans ile olan tahminlerine öne). K ile artan bu varyans fenomeni için konvansiyonel açıklama , belki de en belirgin şekilde İstatistiksel Öğrenme Öğelerinde (Bölüm 7.10.1) verilmiştir:KKKKN-K

K = N ile çapraz doğrulama tahmincisi, doğru (beklenen) tahmin hatası için yaklaşık olarak tarafsızdır, ancak N "eğitim setleri" birbirine çok benzer olduğu için yüksek değişkenliğe sahip olabilir.

Sonuç olarak, doğrulama hatalarının daha fazla korelasyon göstermesi, böylece toplamlarının daha değişken olması anlamına gelir. Bu akıl yürütme çizgisi bu sitedeki birçok cevapta tekrarlanmıştır (örneğin, burada , burada , burada , burada , burada , burada ve buradaN- bunun yerine) yanı sıra vb çeşitli bloglarda ve Ama detaylı bir analiz neredeyse verilmiş asla Analizin neye benzediğine dair sadece bir sezgi veya kısa bir taslak.

Bununla birlikte, çelişkili ifadeler bulabilir, genellikle gerçekten anlamadığım kesin bir “istikrar” koşulu öne sürülebilir. Örneğin, bu çelişkili cevap , diğer şeylerin yanı sıra, " Düşük dengesizliği olan modeller / modelleme prosedürleri için , LOO genellikle en küçük değişkenliğe sahiptir " diyen bir kaç paragraftan alıntı yapmaktadır . Bu makale (bölüm 5.2), LOO’nun model / algoritma “kararlı” olduğu sürece en az değişken olan seçimini temsil ettiği konusunda hemfikir görünmektedir . Konuyla ilgili başka bir duruş daha alarak , “ K kat çapraz onaylamanın varyansı [...] k'ye bağlı değildir diyen bu makale (Corollary 2) de vardır.Kkk, "yine belirli bir" kararlılık "koşulu öne sürerek.

Neden LOO'nun en değişken katlamalı CV olabileceğinin açıklaması yeterince sezgiseldir, ancak bir karşı sezgi vardır. Ortalama karesel hatanın (MSE) nihai CV tahmini, her kattaki MSE tahminlerinin ortalamasıdır. Yani K kadar artar N , CV tahmini rastgele değişken artan sayıda ortalamasıdır. Ve ortalamanın varyansının, ortalama değişkenlerin sayısı ile azaldığını biliyoruz. Yani LOO'nun en değişken K olması için . Ve bunun doğru olduğu hiç de belli değil.KKN-K CV olması için , MSE tahminleri arasında artan korelasyona bağlı olarak varyanstaki artışın, ortalama olarak daha fazla katlanmanın katlanmasından dolayı varyanstaki azalmaya ağır bastığının doğru olması gerekir.

Bütün bunları düşünerek kafam karıştı, lineer regresyon durumu için küçük bir simülasyon yapmaya karar verdim. 10,000 ile veri setleri simüle = 50 ve 3 ilintisiz prediktörleri kullanılarak genelleme hata tahmin her K ile kat CV K = 2, 5, 10 ya da 50 = N . R kodu burada. İşte 10,000 veri setinin tamamındaki CVE tahminlerinin sonuç araçları ve varyasyonları (MSE birimlerinde):N-KKN-

         k = 2 k = 5 k = 10 k = n = 50
mean     1.187 1.108  1.094      1.087
variance 0.094 0.058  0.053      0.051

Bu sonuçlar, daha yüksek değerlerinin daha az karamsar bir önyargıya yol açtığını, ancak LOO durumunda CV tahminlerinin varyansının en düşük değil, en düşük olduğunu doğruladığı görülüyor.K

Bu nedenle, doğrusal regresyonun, CV tahminlerinde artan varyans yerine, artan ile azalmanın birleştiği , yukarıdaki makalelerde belirtilen "kararlı" durumlardan biri olduğu görülmektedir . Ama hala anlamadığım şey:K

  • Bu "kararlılık" koşulu tam olarak nedir? Modeller / algoritmalar, veri setleri veya bir dereceye kadar geçerli midir?
  • Bu istikrar hakkında düşünmenin sezgisel bir yolu var mı?
  • Kararlı ve dengesiz modellerin / algoritmaların veya veri setlerinin diğer örnekleri nelerdir?
  • Çoğu model / algoritma veya veri setinin "kararlı" olduğunu ve bu nedenle hesaplamada mümkün olduğu kadar yüksek seçilmesi gerektiğini varsaymak güvenli midir?K

1
+1. Simülasyon sonuçlarınızda tam olarak ne anlama geliyor? Genelleme hatasının ortalama CV tahmini (10000 veri kümesinde ortalama)? Ama neyle karşılaştırmalıyız? Önyargıyı, yani kök-ortalama-kare-kare sapmayı, gerçek genelleme hatasından sapma göstermek daha anlamlı olacaktır. Ayrıca, bu durumda "gerçek genelleme hatası" nedir? Tahmini N = 100 veri kümesi üzerinde gerçek genelleştirme hatası? Veya gerçek genelleme hatasının beklenen değeri (N = 100 veri setinin tamamındaki beklenen değer)? Veya başka bir şey?
amip diyor Reinstate Monica

3
+1. En.wikipedia.org/wiki/… ' de kısa bir bakıştan sonra , bu bağlamda istikrarın bir algoritmanın ve N - 1 örnekleri ile belirlenen eğitimde benzer sonuçlar ürettiği anlamına geldiği anlaşılmaktadır . Benzerlik, farkın bazı kayıp fonksiyonlarıyla bazı düşük değerlerle sınırlandırıldığı anlamına gelirN-N--1
asukasz Grad

1
Bunun dışında, son zamanlarda @DikranMarsupial (muhtemelen burada CV üzerinde çapraz onaylama konusundaki ana uzmanlarımızdan biri olan) yorumlarında konuştum - Kohavi'nin 1995 makalesini okumayı önerdi . Dikran da istikrar hakkında konuşuyordu. Ne yazık ki, o zamandan beri takip etmedim.
amip diyor Reinstate Monica

2
Sanmıyorum, @Jake. Yazdıklarım “karşı sezginizi” geçersiz kılıyor, ancak asıl “sezgiyi” (farklı kıvrımlardan oldukça bağımlı olan modeller hakkında) hala tutabiliyor.
amip Reinstate Monica’nın

1
Varyansın ile azaldığı sonucunu destekleyen bir başka simülasyon K : stats.stackexchange.com/a/357749/28666 . K
amip diyor Reinstate Monica

Yanıtlar:


15

Bu cevap üzerine takip cevabım içinde izinli birini dışarıda vs içinde Bias ve Varyans K kat çapraz doğrulama geçen neden LOOCV o zaman gelmez yüksek varyans yol açar. Benzer bir yaklaşımı takiben, LOOCV'nin aykırı değerler ve "dengesiz bir model" varlığında daha fazla varyansa neden olduğu bir durumu vurgulamaya çalışacağım .

Algoritmik kararlılık (öğrenme teorisi)

Algoritmik stabilite konusu yeni bir sorundur ve son 20 yılda birçok klasik, etkili sonuç kanıtlanmıştır. İşte sıkça alıntı yapılan birkaç makale

Bir anlayış kazanmak için en iyi sayfa kesinlikle muhtemelen çok bilgili bir kullanıcı tarafından yazılmış mükemmel bir özetini sağlayan wikipedia sayfasıdır .

Sezgisel kararlılık tanımı

Sezgisel olarak, kararlı bir algoritma, antrenman verileri hafifçe değiştirildiği zaman tahminin fazla değişmediği bir algoritmadır.

Resmen, teknik şartlar ve hiyerarşilerle birbirine bağlanmış yarım düzine stabilite versiyonu var , örneğin bu grafiğe bakınız :

görüntü tanımını buraya girin

Ancak amaç basittir, algoritma kararlılık kriterini yerine getirdiğinde, belirli bir öğrenme algoritmasının genelleme hatası konusunda sıkı sınırlar almak istiyoruz. Bekleneceği gibi, kararlılık kriteri ne kadar kısıtlayıcı olursa, o kadar sıkı olacaktır.

Gösterim

Aşağıdaki nota, Bousquet ve Elisseef kağıdını kopyalayan wikipedia makalesinden alınmıştır:

  • Eğitim seti bilinmeyen bir dağılımdan kimliği çizilirS={z1=(x1,y1),...,zm=(xm,ym)}
  • Kayıp fonksiyonu bir hipotez f bir örnek ile ilgili olarak , z olarak tanımlanır V ( f , z )VfzV(f,z)
  • -th öğesini kaldırarak eğitim setini değiştiriyoruz : S | i = { z 1 , . . . , Z i - 1 , Z i + 1 , . . . , Z m }benS|ben={z1,...,zben-1,zben+1,...,zm}
  • Ya da değiştirilmesi ile -inci eleman: S i = { z 1 , . . . , z i - 1 , zbenSben={z1,...,zben-1,zben',zben+1,...,zm}

Resmi tanımlar

Belki de ilginç bir öğrenme algoritmasının uyması beklenen en yüksek istikrar kavramı, tek biçimli istikrardır :

Düzgün stabilite bir algoritma homojen stabiliteye sahip kayıp fonksiyonu wth saygı V şu tutar ise:βV

SZm  ben{1,...,m},  yudum|V(fs,z)-V(fS|ben,z)|  β

Bir fonksiyonu olarak kabul terimi β şekilde yazılabilir β m . Algoritmanın β m 1 gibi düştüğünde kararlı olduğunu söylüyoruz.mββmβm . Hafifçe daha zayıf bir stabilite şekli:1m

Hipotez kararlılığı

ben{1,...,m},  E[ |V(fs,z)-V(fS|ben,z)| ] β

Bir nokta kaldırılırsa, öğrenme algoritmasının sonucundaki fark, kayıpların ortalama mutlak farkı ( normu) ile ölçülür . Sezgisel: Örnekteki küçük değişiklikler, algoritmanın sadece yakındaki hipotezlere taşınmasına neden olabilir.L1

Bu stabilite formlarının avantajı, kararlı algoritmaların yanlılığı ve varyansı için sınırlar sağlamalarıdır. Özellikle, Bousquet bu sınırları 2002 yılında Tekdüzen ve Hipotez istikrarı için kanıtladı. O zamandan beri, istikrar koşullarını gevşetmek ve sınırları genelleştirmek için çok çaba yapıldı, örneğin 2011'de, Kale, Kumar, Vassilvitskii, kare istikrar demek olduğunu savunuyor daha iyi varyans kantitatif varyans azaltma sınırları sağlar.

Bazı kararlı algoritma örnekleri

Aşağıdaki algoritmaların kararlı olduğu ve genelleme sınırlarının kanıtlandığı gösterilmiştir:

  • Düzenli en küçük kare regresyon (önceden uygun)
  • 0-1 kayıp işlevli KNN sınıflandırıcı
  • Sınırlı bir çekirdek ve büyük düzenlileştirme sabiti ile SVM
  • Yumuşak marj SVM
  • Sınıflandırma için minimum bağıl entropi algoritması
  • Torbalama düzenleyicilerin bir versiyonu

Deneysel bir simülasyon

Deneyi önceki iş parçacığından tekrarlayarak ( buraya bakın ), şimdi veri kümesinde belirli bir aykırı değer ortaya koyuyoruz. Özellikle:

  • [-.5,.5]
  • ile verilerin% 3'ü[-20,20]

3

görüntü tanımını buraya girin

Simülasyonun daha önce yapıldığı şekilde yapılması ve elde edilen ortalama MSE'nin ve MSE'nin varyansının çizilmesi, Bengio ve Grandvalet 2004 çalışmasının 2. Denemesine çok benzer sonuçlar vermektedir .

Sol Taraf : Aykırı değil. Sağ Taraf :% 3 aykırı değerler.

görüntü tanımını buraya girin

görüntü tanımını buraya girin

(son rakamın açıklaması için bağlantılı kağıda bakınız)

açıklamalar

Aktaran Yves Grandvalet cevabını diğer iş parçacığı üzerinde:

Sezgisel olarak, [kararsız algoritmalar durumunda], dışarıda bırakılan bir CV, var olan dengesizliklere karşı kör olabilir, ancak eğitim verilerindeki tek bir noktanın değiştirilmesiyle tetiklenmeyebilir; Eğitim Seti.

Uygulamada LOOCV'ye bağlı olarak varyans artışını simüle etmek oldukça zordur. Belirli bir kararsızlık kombinasyonu, bazı aykırı değerler, ancak çok fazla değil ve çok sayıda yineleme gerektirir. Belki de bu beklenen bir durumdur çünkü lineer regresyonun oldukça kararlı olduğu gösterilmiştir. İlginç bir deney, bunu daha yüksek boyutlu veriler ve daha dengesiz bir algoritma (örneğin karar ağacı) için tekrarlamak olacaktır.


+1 ancak bu konunun sonunda bağlantılı olanın kopyası olarak kapatılabileceğini umuyorum (lütuf süresi sona erinceye ve tartışmalar sona erene kadar bekleyip, hangi cevabın kabul edileceğini göreceğim). Daha sonra yorum yapacağım.
amip diyor Reinstate Monica,

Sorunun bir yineleme olduğuna gerçekten ikna olmadım. Benim sorum LOO sorununun varyansını temel olarak “istikrarın” ne anlama geldiğine dair net bir açıklama yapmaya çalışmak olan ana soruları çerçevelemek için bir yöntem olarak kullanıyor - OP'nin üstündeki ve altındaki madde işaretli soruları inceleyin. Bu cevabı faydalı olsa da (+1), istikrar sorularına cevap vermeye çalıştığınızı göremiyorum ... terimini birkaç kez kullanıyorsunuz, ancak bunu bir şekilde yapıyor gibi görünüyorsunuz. okuyucunun ne anlama geldiğini zaten bildiğini varsayar. Yanıtı şu anki haliyle kabul edebileceğimden emin değilim.
Jake Westfall

1
@JakeWestfall Bu konunun sonunda bir kopya olarak kapanabileceğini "umudumu" yazdığımda, bu konudaki kabul edilen bir cevabın sonunda sorduğunuz şeyleri kapsayacak kadar büyük olacağını umuyorum. Bengio ve Grandvalet makalesine bakınız, 2. Deneme. Lineer regresyon ve Gauss verilerini kullanarak LOOCV için minimum varyansa sahip olduklarını gösteriyorlar (bu sizin sonucunuz da), ancak veriler aykırı değerler içeriyorsa, LOOCV 10'dan daha fazla varyansa sahiptir. katla ya da öylesine. Bunun ilgili “istikrarın” ne hakkında olduğunu ima ettiğini düşünüyorum.
amip diyor Reinstate Monica

3
@ XavierBourretSicotte'ı seviyorum. Bu cevapta harika iş çıkardığın için teşekkürler.
Jake Westfall

1
Evet, bu makaleden alıntı: pdfs.semanticscholar.org/bf83/… : "Kararlı bir algoritma, öğrenme kümesinde bir öğeyi değiştirmenin sonucunu çok fazla değiştirmeyeceği özelliğine sahiptir. Sonuç olarak, eğer deneysel rastgele değişken, küçük bir varyansa sahip olmalıdır Kararlı algoritmalar ampirik hatalarının genelleme hatalarına yakın olmaları için iyi adaylar olabilir
Xavier Bourret Sicotte

2

Cevabımı, bahsettiğiniz paragraf bağlamında vereceğim:

K = N ile çapraz doğrulama tahmincisi, doğru (beklenen) tahmin hatası için yaklaşık olarak tarafsızdır, ancak N "eğitim setleri" birbirine çok benzer olduğu için yüksek değişkenliğe sahip olabilir.

Doğru (beklenen) tahmin hatasının CV tahmincisi bir eğitim seti örneğine dayanmaktadır, bu yüzden beklentim, bunu doğru anladığımda eğitim seti örneklerinin üzerindedir.

Öyleyse, "yüksek varyans" ile ilgili bu paragrafın söylediği şey, beklenen hata ile CV tarafından tahmin edilen hata arasında (burada, katlanmaya göre ortalama) hesaplanan "yüksek" bir fark olduğu.

Bu, modelin belirli bir eğitim setine uygun olması ve tüm eğitim kıvrımlarının bir-bir-dışarı-bırakma içinde çok benzer olması nedeniyle anlamlıdır. Bununla birlikte, eğitim katları CV turu içinde çok benzer olsa da, CV için eğitim numuneleri takas edersek, tahmin muhtemelen büyük ölçüde farklılık gösterir. K-katlama CV'de eğitim katlarını "çeşitlendirdiğimiz" için, ortalama etkilerimiz var ve k-katları arasında tahminler daha az değişiyor.

Başka bir deyişle, bir kez dışarıda bırakılan CV tahmincisi temelde neredeyse bir holdout yöntemi gibidir, katları döndürmez ve hata tahmininizi tek bir doğrulama kümesine dayandırırsınız. Yine, eğitim örneklerine göre, k-katlama tahminlerine kıyasla daha yüksek bir varyans olacak, burada k-katlama turu içerisinde bir miktar farklı modelleri eğiterek katlamalara göre ortalamalısınız (başka bir deyişle, eğitim setlerini değiştirirseniz, k-katlamadaki hata muhtemelen bu kadar değişmez).

DÜZENLE:

Burada çapraz onaylanmış ve genel olarak internet ile ilgili bazı cevaplar okuduğumda, hangi tahmin ediciye yöneldiğimize dair bir karışıklık olduğunu düşünüyorum. Bence bazı insanlar k-katlamalı CV tahmin edicinin yüksek varyansına karşı yüksek değişkenlik gösteren (baskın bir değişkenlik bileşenine sahip ML için konuşma ile) olan bir modelden bahsediyorlar). Ve bir başka cevap seti, birisinin "k-katlama yüksek varyansı" derken katlamalara ilişkin örneklem farkı olarak varyansı ifade eder. Bu yüzden spesifik olmayı öneririm, çünkü cevaplar her iki durumda da farklı.


Varyansı tartışırken benim varsayımım, burada tanımlandığı şekilde D eğitim setindeki CV tahmincisinin varyansından bahsettiğimizdir: stats.stackexchange.com/questions/365224/… ve burada: stats.stackexchange.com/questions/325123/… . Yves Grandvalet ve Bengio, 2004 yazılarında CV'nin beklenen tahmin hatasını tahmin ettiğini iddia ediyorlar. Cevabını
Xavier Bourret Sicotte

Cevabınızı farklı varyans tanımlarına dayandırmak istiyorsanız, resmi tanımları ve formülleri eklemenin faydalı olacağını düşünüyorum. Belki de cevaplarımda da bunu yapmalıyım ..
Xavier Bourret Sicotte

Evet, literatürü biraz gözden geçirmem gerekiyor ve cevaba bazı formüller eklemeliyim. İstatistiki Öğrenmenin Elemanları'ndan alıntı, yine de sezgiseldir, ancak eğer LOOCV, model yüksek bir varyansa sahipse, LOOCV'nin yüksek bir varyansa sahip olduğunu, çünkü katlamanın bir ortalamasıdır. Bir model yüksek önyargıya sahipse, hem LOOCV hem de k-kat tahmin edicilerin düşük değişkenliğe sahip olması gerekir (tahminlerden bağımsız olarak). Ancak paragraftaki nokta prob idi. bu LOOCV çoğu durumda k-katına kıyasla

Alıntı yanlış - en azından bir genelleme olarak - cevaplarımda alıntı yapılan çok sayıda makaleye bakınız
Xavier Bourret Sicotte

1

Bunu daha önce de yaşadık - ölü bir at için çok matematiksel hale geliyorsun. Ron Kohavi özgeçmişi üzerinde (Stanford-Univ) klasik kağıt ve önyargı-varyans ikilem bakınız burada . Bunu okumayı bitirdiğinizde, LOOCV gerçekleştirmek istemeyeceksiniz ve muhtemelen 10 kat CV ve / veya önyükleme önyargılı CV'ye çekileceksiniz.

Ayrıca, LOOCV'nin çok hesaplamalı olarak pahalı olduğu büyük veri kümeleri hakkında düşünmeniz gerekir. Şu anda, LOOCV çoğu grubun iş akışlarında / boru hatlarında gerçekten bir seçenek değildir.

Bu "kararlılık" koşulu tam olarak nedir? Modeller / algoritmalar, veri setleri veya bir dereceye kadar geçerli midir?

k=nk=nk=n

Sınıflandırıcı olarak LREG, veriler doğrusal olarak ayrılabilir olduğunda işe yarar, ancak birçok veri kümesi doğrusal olarak ayrılmadığından, ortalama olarak önyargısı çok yüksek olur.

Bu istikrar hakkında düşünmenin sezgisel bir yolu var mı?

Benim görüşüme göre değil - çünkü istikrar konusunda genel bir kural yoktur.

Kararlı ve dengesiz modellerin / algoritmaların veya veri setlerinin diğer örnekleri nelerdir?

Bu açık uçlu ve çok geniştir, çünkü çok fazla sayıda yanıt alınamayabilir, bu da yardımcı olmaz.

K

kk

kk


Yorumlarınız için teşekkürler, ancak bu soruyu cevaplamıyor gibi görünüyor.
Jake Westfall

OP'ye eklenmiş cevaba bakınız.
JoleT

3
Sadece yazıyı gözden kaçırdı ama 10x hakkında iddialarını son derece titrek zeminde en iyi şekilde yaptıklarını düşünüyorlar . 7 bin alıntı olduğuna inanamıyorum. Bununla birlikte, 10x'ten fazla yararın olduğuna inanmak için iyi bir neden var. Bir şansım olduğunda daha kapsamlı bir okuma yapacağım.
Cliff AB
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.