İç içe çapraz doğrulama - eğitim setindeki kfold CV ile model seçiminden farkı nedir?


10

Sıklıkla 5x2 çapraz doğrulamadan bahseden insanların iç içe çapraz doğrulamanın özel bir örneği olduğunu görüyorum .

İlk sayının (burada: 5) iç döngüdeki kat sayısını ve ikinci sayı (burada: 2) dış döngüdeki kat sayısını ifade ettiğini varsayıyorum? Peki, bunun "geleneksel" model seçim ve değerlendirme yaklaşımından farkı nedir? "Geleneksel" derken

  • veri kümesini ayrı bir eğitime (ör.% 80) ve test setine bölme
  • egzersiz setinde hiperparametre ayarı ve model seçimi için k-kat çapraz doğrulamayı (örn. k = 10) kullanın
  • test setini kullanarak seçilen modelin genelleme performansını değerlendirebilecek

5x2, k = 2 ise test ve eğitim setinin eşit boyutta olması dışında tam olarak aynı değil mi?


1
Doğru, bu durumda aynıdır, ancak dış döngüde 80/20 yerine 50/50 bölme kullanır. Genel olarak, genelleme performansının daha iyi bir tahminini verir ve özellikle nispeten küçük numune boyutlarında tercih edilmelidir. Deneyimlerime göre, iç içe CV için bile performans tahmini çok değişiyor. Genelleme performansının iyi bir tahminini almak için genellikle iç içe CV'yi birkaç kez yapmak daha iyidir.
George

Teşekkürler, mantıklı! Bununla birlikte, küçük eğitim setleri için muhtemelen iç ve dış döngülerdeki kat sayısını artıracağım; varyansı azaltabilir, ancak aynı zamanda önyargıyı artırabilir

Genel olarak, 5x2 iç içe CV yapmak yerine, genellikle k = 5 veya 10 ile bir (k-1) xk gerçekleştiririm. Birkaç örnek olması durumunda, kat sayısını artırmak yerine daha küçük k değerleri için giderdim .
George

1
Bence tamamen yanlış olmaktan ziyade geriye doğru sahiptiniz, ancak kabul edilen cevap referans alacağım kaynakla aynı fikirde olmayabilir. Raschka tarafından yapılan Python Machine Learning'de "özel iç içe çapraz doğrulama türü de 5x2 çapraz doğrulama olarak da bilinir" anlamına gelir. İçinde 2'nin hiper parametre ayarı için iç döngüye, 5'in ise tarafsız model performans tahmini için dış döngüye atıfta bulunduğunu gösteren bir grafik vardır. Grafiğin renkli bir kopyasını Senaryo 3 altında bulabilirsiniz: sebastianraschka.com/faq/docs/evaluate-a-model.html
Austin

Yanıtlar:


13

5x2cv, literatürde gördüğüm kadarıyla, her zaman 2 katın 5 tekrarı anlamına gelir. Hiç yuvalama yoktur. 2 kat yapın (tren ve test arasında 50/50 bölünmüş), 4 kez daha tekrarlayın. 5x2cv, Dietterich tarafından denetlenen sınıflandırma öğrenme algoritmalarını sadece genelleme hatasının iyi bir tahminini değil, aynı zamanda bu hatanın varyansının iyi bir tahminini elde etmenin bir yolu olarak karşılaştırmak için yaklaşık istatistiksel testler makalesi tarafından popülerleştirildi (istatistiksel testler yapmak için) )


Teşekkürler! İç döngüler farklı modeller seçerse, örneğin bir model seçimi sırasında "en uygun" düzenlenme parametresi lambda = 100 ve diğeri için lambda = 1000 ise insanların ne yaptığını biliyor musunuz? Bu durumda ortalama model performansını hesaplamak biraz garip olurdu, değil mi? Modelleri "kararsız" olarak atabilir misiniz?

3
İç döngü muhtemelen farklı hiperparametreler seçimiyle sonuçlanacaktır. Hiperparametreleri seçmek için iç içe çapraz doğrulamayı kullanmazsınız, yalnızca genelleme hatası hakkında iyi bir tahmin elde etmek için (mümkün olan en iyi hiperparametrelerle). İç içe cv, bir veya başka bir algoritma arasında karar vermek için kullanılır. Bkz stats.stackexchange.com/questions/136296/... veya stats.stackexchange.com/questions/65128/... (diğerleri arasında)
Jacques Wainer

Anlıyorum, o zaman tam mantıklı! İnsanların farklı kullandıklarını düşündüm. Sanırım soruyu o zaman kapatabiliriz.

2

Dış döngüde 2 tekrar, 5 kat CV'nizi tüm tren setinde 2 kez tekrarlamanız anlamına gelir. Her seferinde kıvrımlara bölünme farklı olacaktır.

Bu temel olarak, bir modelin istatistiksel olarak diğerinden önemli ölçüde daha iyi performans gösterip göstermediğine ilişkin istatistiksel testler yapmak gibi model performansının daha iyi tahminleri için kullanılır.

Veri kümeniz büyükse ve aykırı değerlere sahip değilse, iç içe geçmiş CV kritik öneme sahip değildir. Verileriniz aykırı değerlere sahipse, bu aykırı değerlerin hangi katlama / katlamalara bağlı olarak çapraz doğrulama performansı önemli ölçüde farklı olabilir. Bu nedenle CV'yi birkaç kez tekrar edersiniz.


İyi bir nokta. Geleneksel yaklaşımda (eğitim setinde test / tren bölünmesi ve ardından k-katlamalı CV) sadece modeli değerlendirmek için 1 katınız olurken, 5x2 CV'de ortalama performans 2 farklı kattan hesaplanabilir.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.