Öngörülü modelleri değerlendirmek için tekrarlanan çapraz geçerlilik kullanılmalı mıdır?


16

Ben rastladım bu 2012 makalesinde soru çapraz doğrulama varyansını azaltmak için popüler bir teknik haline gelmiştir tekrarlanan çapraz doğrulama, yararını çağırarak Gitte Vanwinckelen ve Hendrik Blockeel tarafından.

Yazarlar, tekrarlanan çapraz-validasyonun model tahminlerinin varyansını azaltmasına rağmen, aynı örnek veri kümesinin yeniden örneklendiği için, yeniden örneklenen çapraz-validasyon tahminlerinin ortalamasının gerçek öngörme doğruluğunun önyargılı bir tahminine yaklaştığını ve bu nedenle faydalı olmadığını göstermiştir.

Bu sınırlamalara rağmen tekrarlanan çapraz doğrulama kullanılmalı mıdır?


6
Deneyimlerime göre, çapraz geçerlilik (tekrarlanan ya da tekrarlanmayan) tahmin doğruluğu hakkında çok iyi bir tahmin vermemektedir. Ama olan farklı modellerin öngörü performansını karşılaştırmak için çok kullanışlıdır. Modeller arasında seçim yapmanın iyi bir yolu, ancak tek bir modelin performansını tahmin etmek için iyi bir yol değil.
Pisi

@Flounderer Bu iyi bir nokta. Makaleyi yorumladığım, tekrarlanan çapraz validasyona karşı tekrarlanan çapraz validasyona dayalı modellerin anlamlı karşılaştırmasını yapamamamızdır. Verilerden mantıksız miktarda bilgi sıkıştırmaya çalışıyorsunuz. Yoksa bu yanlış mı?
RobertF

Yanıtlar:


11

Makalenin ortaya koyduğu iddiası bana garip geliyor.

Makaleye göre, CV'nin amacı , modelin gözlemlenen veri kümesi S üzerinde eğitilmiş olması koşuluyla, modelin yeni veriler üzerinde beklenen tahmini performansı olan tahmin etmektir . Yaptığımız zaman k kat CV, biz bir tahmin elde A'yı bu sayının. Çünkü rasgele bölümleme S içine k katları, bu rastgele değişken bir ~ f ( A ) ile, ortalama μ k ve varyans σ 2 k . Buna karşılık, n -kez tekrarlanan CV aynı ortalama ile bir tahmin verirα2SkA^SkA^f(A)μkσk2n fakat daha küçük varyans.μkσk2/n

Açıkçası, α2μk . Bu önyargı kabul etmemiz gereken bir şey.

Ancak, beklenen hata daha küçük daha büyük olacak n ve için en büyük olacak , n = 1 , en az yaklaşık uygun varsayımlar altında, f ( A ) , örneğin, ne zaman bir ˙ ~ N ( μ k , σ 2 k / n ) . Başka bir deyişle, tekrarlanan CV μ k'nin daha kesin bir tahminini elde etmeyi sağlarE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μkBu daha doğru bir tahminini verir, çünkü iyi bir şeydir .α2

Bu nedenle, tekrarlanan CV, tekrarlanmayan CV'den kesinlikle daha kesindir.

Yazarlar bununla tartışmıyorlar! Bunun yerine, simülasyonlara dayanarak,

[CV'yi tekrarlayarak] varyansı azaltmak, pek çok durumda, çok yararlı değildir ve esasen hesaplama kaynaklarının israfıdır.

Bu sadece vasıta kendi simülasyonları oldukça düşüktü; gerçekten de, kullanılan en düşük örnek büyüklüğündeydi 200 küçük verecek şekilde yeterince büyük olasılıkla olan σ 2 k . (Tekrarlanmamış CV ve 30 kez tekrarlanan CV ile elde edilen tahminlerdeki fark her zaman küçüktür.) Daha küçük numune boyutları ile tekrarlar arasında daha büyük bir varyans beklenebilir.σk2200σk2

CAVEAT: Güven aralıkları!

Yazarların öne sürdüğü bir diğer nokta da

güven aralıklarının [tekrarlanan çapraz validasyonda] rapor edilmesi yanıltıcıdır.

Görünüşe göre CV tekrarlarında ortalama için güven aralıklarından bahsediyorlar. Bunun bildirilmesi anlamsız bir şey olduğuna tamamen katılıyorum! CV ne kadar çok tekrarlanırsa, bu CI o kadar küçük olur, ancak hiç kimse tahminimiz etrafında CI ile ilgilenmez ! Α 2 tahminimiz etrafında CI'yı önemsiyoruz .μkα2

Yazarlar ayrıca tekrarlanmamış CV için CI'leri rapor ediyorlar ve bu CI'lerin nasıl inşa edildiğini tam olarak açıklamıyorum. Sanırım bunlar kıvrımları boyunca kullanılan araçlar için CI'ler. Bu CI'ların da neredeyse anlamsız olduğunu iddia ediyorum!k

Örneklerinden birine göz atın: adultNB algoritması ve 200 örnek boyutu ile veri kümesinin doğruluğu . Tekrarlanan olmayan CV ile% 78.0, 10 kez tekrarlanan CV ile% 79.0 (77.21, 80.79) ve 30 kez tekrarlanan CV ile% 79.1 (78.07, 80.13) alırlar. İlki de dahil olmak üzere bu CI'lerin tümü işe yaramaz. En iyi tahmini % 79.1'dir. Bu, 200 üzerinden 158 başarıya karşılık gelir. Bu, bildirilen ilkinden bile daha geniş (% 72.8, 84.5)% 95 binom güven aralığı sağlar. Biraz rapor etmek istersemμk CI, bu şimdiye rapor verecek biridir.

DAHA GENEL CAVEAT: CV değişimi.

Tekrarlanan CV yazdınız

çapraz doğrulamanın varyansını azaltmak için popüler bir teknik haline gelmiştir.

Özgeçmişin "varyansı" ile ne anlama geldiği çok açık olmalıdır. Tekrarlanan CV, tahmininin varyansını azaltır . Bir kerelik CV (LOOCV) olması durumunda, k = N olduğunda , bu varyansın sıfıra eşit olduğuna dikkat edin. Bununla birlikte, genellikle LOOCV'nin gerçekte tüm k- katlı CV'lerin en yüksek varyansına sahip olduğu söylenir . Örneğin buraya bakınız: Çapraz validasyonda varyans ve sapma: bir defa bırakılan CV'nin daha yüksek varyansı vardır?μkk=Nk

Neden? Bunun nedeni, LOOCV'nin, S ile aynı boyutta yeni bir veri kümesi üzerine inşa edildiğinde modelin yeni veriler üzerinde beklenen tahmini performansı olan tahmini olarak en yüksek varyansa sahip olmasıdır . Bu tamamen farklı bir konudur.α1S


1
Umarım @cbeleites bu konuyu fark edip burada yorum yapacaktır ya da kendi cevabını bırakacaktır: Biliyorum o tekrarlanan CV'yi çok kullanıyor (veya). Ama tekrarlar üzerinde bir CI hesaplayacağını sanmıyorum.
amip: Reinstate Monica

1
μkα2μkα2μk

1
@RobertF: Model performansını tahmin etmekten (V&B makalesini izleyerek) bahsediyordum. Benim tezim, tekrarlanan CV'nin tekrarlanmayan CV'den daha hassas olduğu ve şüphesiz olduğunu düşünüyorum (V&R, hassasiyetteki farkın uygulamada çok önemli olmadığını düşünüyor). İki modeli karşılaştırmak çok daha zordur, çünkü diyelim ki CV'yi çalıştırıyorsunuz ve bir model için% 70, başka bir model için% 71 alıyorsunuz. "Önemli" bir fark mı? Bu, kesin bir cevabı olmayan zor bir problem. Ve tekrarlanan / tekrarlanmayan sorundan bağımsızdır.
amip, Reinstate Monica'ya

Düşünce için yiyecek: uygulamalıpredictivemodeling.com/ blog
2014/

1
σk
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.