Makalenin ortaya koyduğu iddiası bana garip geliyor.
Makaleye göre, CV'nin amacı , modelin gözlemlenen veri kümesi S üzerinde eğitilmiş olması koşuluyla, modelin yeni veriler üzerinde beklenen tahmini performansı olan tahmin etmektir . Yaptığımız zaman k kat CV, biz bir tahmin elde A'yı bu sayının. Çünkü rasgele bölümleme S içine k katları, bu rastgele değişken bir ~ f ( A ) ile, ortalama μ k ve varyans σ 2 k . Buna karşılık, n -kez tekrarlanan CV aynı ortalama ile bir tahmin verirα2SkA^SkA^∼f(A)μkσ2kn fakat daha küçük varyans.μkσ2k/n
Açıkçası, α2≠μk . Bu önyargı kabul etmemiz gereken bir şey.
Ancak, beklenen hata daha küçük daha büyük olacak n ve için en büyük olacak , n = 1 , en az yaklaşık uygun varsayımlar altında, f ( A ) , örneğin, ne zaman bir ˙ ~ N ( μ k , σ 2 k / n ) . Başka bir deyişle, tekrarlanan CV μ k'nin daha kesin bir tahminini elde etmeyi sağlarE[|α2−A^|2]nn=1f(A)A^∼˙N(μk,σ2k/n)μkBu daha doğru bir tahminini verir, çünkü iyi bir şeydir .α2
Bu nedenle, tekrarlanan CV, tekrarlanmayan CV'den kesinlikle daha kesindir.
Yazarlar bununla tartışmıyorlar! Bunun yerine, simülasyonlara dayanarak,
[CV'yi tekrarlayarak] varyansı azaltmak, pek çok durumda, çok yararlı değildir ve esasen hesaplama kaynaklarının israfıdır.
Bu sadece vasıta kendi simülasyonları oldukça düşüktü; gerçekten de, kullanılan en düşük örnek büyüklüğündeydi 200 küçük verecek şekilde yeterince büyük olasılıkla olan σ 2 k . (Tekrarlanmamış CV ve 30 kez tekrarlanan CV ile elde edilen tahminlerdeki fark her zaman küçüktür.) Daha küçük numune boyutları ile tekrarlar arasında daha büyük bir varyans beklenebilir.σ2k200σ2k
CAVEAT: Güven aralıkları!
Yazarların öne sürdüğü bir diğer nokta da
güven aralıklarının [tekrarlanan çapraz validasyonda] rapor edilmesi yanıltıcıdır.
Görünüşe göre CV tekrarlarında ortalama için güven aralıklarından bahsediyorlar. Bunun bildirilmesi anlamsız bir şey olduğuna tamamen katılıyorum! CV ne kadar çok tekrarlanırsa, bu CI o kadar küçük olur, ancak hiç kimse tahminimiz etrafında CI ile ilgilenmez ! Α 2 tahminimiz etrafında CI'yı önemsiyoruz .μkα2
Yazarlar ayrıca tekrarlanmamış CV için CI'leri rapor ediyorlar ve bu CI'lerin nasıl inşa edildiğini tam olarak açıklamıyorum. Sanırım bunlar kıvrımları boyunca kullanılan araçlar için CI'ler. Bu CI'ların da neredeyse anlamsız olduğunu iddia ediyorum!k
Örneklerinden birine göz atın: adult
NB algoritması ve 200 örnek boyutu ile veri kümesinin doğruluğu . Tekrarlanan olmayan CV ile% 78.0, 10 kez tekrarlanan CV ile% 79.0 (77.21, 80.79) ve 30 kez tekrarlanan CV ile% 79.1 (78.07, 80.13) alırlar. İlki de dahil olmak üzere bu CI'lerin tümü işe yaramaz. En iyi tahmini % 79.1'dir. Bu, 200 üzerinden 158 başarıya karşılık gelir. Bu, bildirilen ilkinden bile daha geniş (% 72.8, 84.5)% 95 binom güven aralığı sağlar. Biraz rapor etmek istersemμk CI, bu şimdiye rapor verecek biridir.
DAHA GENEL CAVEAT: CV değişimi.
Tekrarlanan CV yazdınız
çapraz doğrulamanın varyansını azaltmak için popüler bir teknik haline gelmiştir.
Özgeçmişin "varyansı" ile ne anlama geldiği çok açık olmalıdır. Tekrarlanan CV, tahmininin varyansını azaltır . Bir kerelik CV (LOOCV) olması durumunda, k = N olduğunda , bu varyansın sıfıra eşit olduğuna dikkat edin. Bununla birlikte, genellikle LOOCV'nin gerçekte tüm k- katlı CV'lerin en yüksek varyansına sahip olduğu söylenir . Örneğin buraya bakınız: Çapraz validasyonda varyans ve sapma: bir defa bırakılan CV'nin daha yüksek varyansı vardır?μkk=Nk
Neden? Bunun nedeni, LOOCV'nin, S ile aynı boyutta yeni bir veri kümesi üzerine inşa edildiğinde modelin yeni veriler üzerinde beklenen tahmini performansı olan tahmini olarak en yüksek varyansa sahip olmasıdır . Bu tamamen farklı bir konudur.α1S