10-kat Çapraz doğrulama vs çıkış bitti çapraz doğrulama


25

İç içe çapraz doğrulama yapıyorum. Dışarıda bırakma çapraz doğrulama işleminin önyargılı olabileceğini okudum (nedenini hatırlamıyorum).

Dışarıda bırakma çapraz doğrulama için daha uzun çalışma süresi dışında 10 kat çapraz doğrulama veya bir kez dışarıda bırakılma çapraz doğrulama kullanılması daha mı iyidir?


1
Bunu nerede okuduğunu hatırlıyor musun?
Richard Hardy

5
Önyargı hakkındaki bu yazıyı gördünüz mü ? Ayrıca, bu cevabın 5 ya da 10 kat çapraz doğrulama öneren çok iyi bir kitaptan bir alıntı var.
Eric Farng

1
Bu yazı biraz ilgili.
Richard Hardy

1
Teşekkür ederim. Sonuç olarak, bir kez dışarıda bırakma CV yerine 10 kat CV ile gitmem gerektiği söylenebilir mi? Bu aynı zamanda küçük bir veri seti için de geçerli midir?
makine

1
@Ttomlar, veri kümeniz çok küçük olduğunda, neredeyse LOO-CV yaparak bitirdiniz, böylece veri kümesi boyutunuz azaldıkça 10 kat CV'nin yararı azalır.
cdeterman

Yanıtlar:


27

Sadece @SubravetiSuraj (+1) yanıtına biraz eklemek için

Çapraz doğrulama, karamsar bir performans tahminine dayanıyor çünkü çoğu istatistiksel model, eğer eğitim seti daha büyük yapılırsa gelişecek. Bu, k-katlama çapraz onaylamanın,% 100'den ziyade, mevcut verilerin% 100 * (k-1) / k veri kümesi üzerinde eğitilmiş bir modelin performansını tahmin ettiği anlamına gelir. Bu nedenle, performansı tahmin etmek için çapraz doğrulama yapar ve ardından operasyonel kullanım için tüm veriler üzerinde eğitilmiş bir model kullanırsanız, çapraz doğrulama tahmininin önerdiğinden biraz daha iyi bir performans gösterecektir.

Biri dışarıda bırakma çapraz doğrulama işlemi yaklaşık olarak tarafsızdır , çünkü her katlamada kullanılan eğitim seti ile tüm veri kümesi arasındaki boyut farkı yalnızca tek bir düzendir. Bu konuda Luntz ve Brailovsky (Rusça) tarafından bir makale var.

Luntz, Aleksandr ve Viktor Brailovsky. "İstatistiki istatistiksel prosedürde elde edilen karakterlerin tahmininde." Technicheskaya Kibernetica 3.6 (1969): 6-12.

Ayrıca bakınız

Diskriminant Analizinde Hata Oranlarının Tahmini Peter A. Lachenbruch ve M. Ray Mickey Technometrics Vol. 10, Sayı. 1,1968

Bununla birlikte, bir kez dışarıda bırakılan çapraz doğrulama yaklaşık olarak tarafsız olsa da, yüksek bir varyansa sahip olma eğilimindedir (bu yüzden, aynı dağılımdaki farklı veri örnekleriyle tahminin tekrarlanması durumunda çok farklı tahminler alırsınız). Tahmin edicinin hatası yanlılık ve varyansın bir birleşimi olduğu için, bir-bir-dış çapraz onaylamanın 10-kat çapraz onaylamanın daha iyi olup olmadığı her iki miktara da bağlıdır.

Şimdi, modelin yerleştirilmesindeki varyans, küçük bir veri setine yerleştirilirse daha yüksek olma eğilimindedir (kullanılan belirli eğitim örneğindeki herhangi bir gürültü / örnekleme esasına karşı daha duyarlı olduğu için). Bu, eğitim setinin büyüklüğü LOOCV'den daha küçük olacağından, yalnızca sınırlı miktarda veriye sahipseniz 10 kat çapraz doğrulama yapmanın yüksek bir varyansa (ve daha yüksek bir önyargıya) sahip olabileceği anlamına gelir. Bu yüzden, k-kat çapraz doğrulama, aynı zamanda farklı nedenlerle de varyans sorunlarına sahip olabilir. Bu nedenle LOOCV veri setinin büyüklüğü küçük olduğunda genellikle daha iyidir.

Ancak, benim görüşüme göre LOOCV kullanmanın asıl nedeni, bazı modeller (örneğin doğrusal regresyon, çoğu çekirdek yöntemleri, en yakın komşu sınıflandırıcıları, vb.) İçin hesaplama açısından ucuz olmasıdır ve veri kümesi çok küçük olmadığı sürece, kullanacağım Hesaplama bütçeme uyuyorsa ya da daha iyisi önyükleme tahmini ve torbalama işlemlerinde 10 kat çapraz doğrulama.


2
Belirsiz 1969 Rus referansı için +1! Yüksek varyansa sahip LOOCV için iyi bir referansınız var mı? Bu, Hastie ve arkadaşlarında belirtildi, ancak tartışmadan% 100 ikna olduğumdan emin değilim ve ampirik gösteriler görmedim (simülasyonlar).
amip diyor Reinstate Monica

3
evet, bununla aynı fikirde olduğumu sanmıyorum, çünkü modelin test örneklerini silmenin neden olduğu bozulmalara karşı kararlı olduğunu varsayıyor, bu da eğer sadece çok büyük bir veri setine sahipseniz doğru olmaya yaklaşması muhtemel. sadece asimptotik olarak doğru, ancak bu kadar fazla veriye sahip olsaydınız, neredeyse tüm makul performans değerlendirme programları size aynı sonucu verirdi).
Dikran Marsupial

2
+1 (hem yazı hem de en son yorum - harika yazılar, ancak kör edilmemeleri gereken (başka herhangi bir makale gibi)).
usεr11852, Reinstate Monic’in

2
@Dikran Bu konu (en büyük varyansa sahip olan LOOCV'den) ayrı ve oldukça ilginç bir soru ile tekrar gündeme geldi: stats.stackexchange.com/questions/280665 , bir göz atmak isteyebilirsiniz.
amip diyor Reinstate Monica

2
Başka bir simülasyon istatistikleri var . Yukarıdaki yorumuma bağlanan başka bir simülasyon varyansın ile azaldığı ve LOOCV için en düşük olduğu başka bir örnek gösterdi . Şimdiye dek varyansın katlanma sayısıyla artacağı bir simülasyon görmek gerçekten merak ediyorum. Ayrıca pratikte olabileceği konusunda şüpheci olmaya başladım. k
amip Reinstate Monica diyor

20

Bence, küçük bir eğitim verisine sahip olduğunuzda, çapraz onay dışına çıkmak daha iyidir. Bu durumda, modeli eğitmek için verilerinizin geri kalanını kullanma konusunda öngörülerde bulunmak için 10 kat oluşturamazsınız.

Öte yandan, çok miktarda egzersiz verisine sahipseniz, 10 kat çapraz doğrulama daha iyi bir bahistir, çünkü bir tane çapraz onay dışında bırakmak için çok fazla yineleme olacaktır ve bu birçok sonucu hiperparametrelerinizi ayarlamak için böyle iyi bir fikir olma.

ISL’ye göre, dışarıda bırakma yapmak ve çapraz onaylama yapmak arasında daima bir taraflılık farkı vardır. LOOCV'da (bir CV'yi dışarıda bırakın), daha düşük önyargılı ve daha yüksek sapmalı test hatası tahminlerini alırsınız, çünkü her bir eğitim seti n-1 örnekler içerir, bu da her bir yinelemede neredeyse tüm eğitim setini kullandığınız anlamına gelir. Bu, aynı zamanda daha yüksek varyansa neden olur, çünkü eğitim setleri arasında çok fazla çakışma vardır ve bu nedenle test hatası tahminleri arasında yüksek oranda korelasyon vardır, bu, test hatası tahmininin ortalama değerinin daha yüksek varyansa sahip olacağı anlamına gelir.

Bunun tersi k-kat CV ile doğrudur, çünkü eğitim setleri arasında nispeten daha az çakışma vardır, bu nedenle test hatası tahminleri daha az ilişkilendirilir, bunun sonucunda ortalama test hatası değeri LOOCV kadar değişken olmaz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.