Tek kullanımlık çapraz doğrulamada yüksek varyans


15

"Bir defaya mahsus bırak" çapraz doğrulamasının, eğitim kıvrımlarının büyük örtüşmesi nedeniyle yüksek varyansa sahip olduğunu tekrar tekrar okudum. Ancak bunun neden olduğunu anlamıyorum: Çapraz onaylamanın performansı, eğitim setleri neredeyse aynı olduğu için çok kararlı (düşük varyans) olmamalı mı? Yoksa "varyans" kavramını tamamen yanlış anlıyor muyum?

Ayrıca LOO'nun nasıl tarafsız olabileceğini tam olarak anlamıyorum, ancak yüksek bir varyansa sahip miyim? LOO tahmini, beklentideki gerçek tahminci değerine eşitse - nasıl yüksek varyansa sahip olabilir?

Not: Burada benzer bir soru olduğunu biliyorum: Neden yüksek hata tahmini için bir-out-out çapraz doğrulama (LOOCV) varyans yüksek? Ancak cevaplayan kişi, daha sonra yapılan açıklamalarda, cevaplara rağmen cevabının yanlış olduğunu fark ettiğini söylüyor.


2
Ben o kişiyim :-) ama lütfen, ilk olarak, bir süre önce karışıklığı kaldırmak için cevabımı güncellediğimi ve ikinci olarak, tüm iş parçacığının başka bir iş parçacığının kopyası olarak kapalı olduğunu lütfen unutmayın: stats.stackexchange.com/ sorular / 61783 . Oraya baktın mı? Q'nuz bana bunun bir kopyası gibi geliyor. Burada verilen cevaptan memnun değilseniz, sorunuzu daha spesifik bir şekilde formüle etmeyi düşünün. Şu anda kapatmak için oy vereceğim, ancak
Q'nuzu


3
0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

5
İlk paragrafınızla ilgili olarak: tüm veri kümesinin farklı gerçekleşmeleri arasındaki varyansı düşünmeniz gerekir . Belirli bir veri kümesi için, LOOCV aslında her bir bölünme için çok benzer modeller üretecektir, çünkü eğitim setleri (sizin söylediğiniz gibi) çok fazla kesişmektedir, ancak bu modeller birlikte gerçek modelden çok uzak olabilir ; veri kümelerinde, farklı yönlerde, dolayısıyla yüksek varyansta çok uzakta olacaklardır. Bunu kalitatif olarak anlıyorum.
amip diyor Reinstate Monica

2
@amoeba, neden bu yorumları resmi bir cevaba dönüştürmüyorsun?
gung - Monica'yı eski

Yanıtlar:


10

Bu soru muhtemelen varyasyonun bir kopyası ve çapraz doğrulamanın önyargısı olarak kapanacaktır : neden bir defalık CV daha yüksek varyansa sahiptir? , ama gerçekleşmeden önce yorumlarımı bir cevaba dönüştüreceğim.

Ayrıca LOO'nun nasıl tarafsız olabileceğini tam olarak anlamıyorum, ancak yüksek bir varyansa sahip miyim?

0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...

Çapraz onaylamanın performansı, eğitim setleri neredeyse aynı olduğu için çok kararlı (düşük varyans) olmamalı mı?

Tüm veri kümesinin farklı gerçekleşmeleri arasındaki varyansı düşünmeniz gerekir. Belirli bir veri kümesi için, bir defada bırakılan çapraz doğrulama, gerçekten de her bir bölünme için çok benzer modeller üretecektir, çünkü eğitim setleri çok fazla kesişmektedir (doğru şekilde fark ettiğiniz gibi), ancak bu modellerin hepsi gerçek modelden çok uzakta olabilir; veri kümelerinde, farklı yönlerde, dolayısıyla yüksek varyansta çok uzakta olacaklardır.

En azından ben böyle anlıyorum. Daha fazla tartışma için lütfen bağlantılı konulara ve daha fazla tartışma için başvurulan makalelere bakın.


2
Anladığım kadarıyla, düşük önyargı verildiği için eğitim seti çok büyük - tüm veri kümesiyle neredeyse aynı (test için sadece bir veri örneği kaldığı için). Dolayısıyla, belirli bir veri kümesi için çok iyi bir tahmin bekleyebiliriz. Bununla birlikte, kıvrımların bu yüksek korelasyonu nedeniyle (çapraz değerleme, yinelemelerindeki özdeş veriler üzerinde neredeyse gerçekleştirilir), tahmin de bu belirli veri kümesi için çok spesifiktir ve bu da aynı temel dağılımdan farklı veri kümelerindeki performans arasında yüksek sapma ile sonuçlanır. . Doğru?
Pugl

2
Bence çoğunlukla doğru, ama bunu söylerken dikkatli olunmalıdır for one particular dataset we can expect a very good estimation. Sanırım bunu bazı veri kümesine özgü parametrelerin tahmininin iyi olacağı anlamına gelebilir. Ancak genel olarak çapraz doğrulamanın bir popülasyon parametresini tahmin etmesi beklenir : belirli bir modelin popülasyondaki bağımlı değişken hakkında ne kadar iyi tahminlerde bulunabileceği; ve biz olabilir değil çünkü (tahmindir yazdıklarından, LOOCV tarafından kendisine çok iyi bir tahmin bekliyoruz very specific for this particular dataset).
amip diyor Reinstate Monica

1
Tüm bunların benim şimdiki anlayışım olduğuna dair bir uyarı yapmalıyım, ancak genel olarak bu konuyu oldukça zor buluyorum ve çapraz doğrulama ile ilgili deneyimim sınırlı. Ben uzman değilim.
amip diyor Reinstate Monica

1
Neden zor bulduğunu sorabilir miyim?
Özür dilerim,

2
İçinde kabul cevabı Verilen bu konuya bu cevap, yani içinde LOOCV yüksek varyansı söz belki artık ihtiyaç dolayısıyla yüksek varyans ? Bir süredir bu soruları düşündüm ve sürekli ("sürekli"?) Regresyon problemlerinde LOOCV'nin yüksek varyansının herhangi bir teorik nedeni ile karşılaşamadım. örneğiniz her bir noktanın kopyalarını içeriyorsa.
Richard Hardy

1

Bu yüksek varyans, eğitim setlerinin alanı ile ilgilidir. İşte bu yüzden LOOCV yüksek varyansa sahiptir: LOOCV'de, her gözlem için tahmin hatası alırız, örneğin gözlem i, bu gözlem dışında eldeki gözlemlenen tüm veri kümesini kullanarak. Bu nedenle, i için öngörülen değer, geçerli veri kümesine çok bağlıdır. Şimdi başka bir bağımsız veri kümesini gözlemlediğimizi ve bu yeni veri kümesine bir model yerleştirdiğimizi varsayalım. Bu yeni modeli gözlem i için öngörülen bir değer elde etmek için kullanırsak, öngörülen değer potansiyel olarak LOOCV tarafından değerlendirilen değerden çok farklıdır (ortalama olarak doğru olmasına rağmen (tarafsız)).

Bu, LOOCV'deki hata tahmininin yüksek varyansının arkasındaki sezgidir.

Bununla birlikte, farklı hiperparametrelerle bir modelin sonuçlarını karşılaştırmak için LOOCV kullanıyorsanız, tahmin hatasının gerçek değerinin ilginizi çekmemesi koşuluyla tahmin hatalarını tahmin etmek için LOOCV'yi güvenle kullanabileceğinize inanıyorum, yani sadece gözlemlenen egzersiz setine sahip farklı modelleri karşılaştırın ve tahmin edilecek gerçek gerçek hatayı umursamazsınız.

Bununla birlikte, küçük bir örneğiniz varsa, LOOCV kullanın, aksi takdirde k için daha küçük bir değere sahip k katlamalı CV kullanın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.