Genellikle elbette fark göze çarpmaz ve sorumu gider - bir türün sonucu diğerinden önemli ölçüde farklı olduğunda bir örnek düşünebilir misiniz?
Farkın hiç fark edilmediğinden emin değilim ve sadece özel örnekte farkedilir. Hem çapraz doğrulama hem de önyükleme (alt örnekleme) yöntemleri, kritik olarak tasarım parametrelerine bağlıdır ve bu anlayış henüz tam değildir. Genel olarak, k-kat çapraz doğrulaması içindeki sonuçlar kritik olarak kat sayısına bağlıdır, bu nedenle alt örneklemede gözlemlediğinizden her zaman farklı sonuçlar bekleyebilirsiniz.
Burada örnek: sabit sayıda parametreye sahip gerçek bir lineer modeliniz olduğunu varsayalım. K katlama çapraz doğrulaması kullanırsanız (belirli, sabit k ile) ve gözlemlerin sayısının sonsuzluğa geçmesine izin verirseniz, k katlama çapraz doğrulaması model seçimi için asimptotik olarak tutarsız olacaktır, yani, yanlış bir modeli tanımlayacaktır. olasılık 0'dan büyüktür. Bu şaşırtıcı sonuç Jun Shao, "Çapraz Doğrulamayla Doğrusal Model Seçimi", Amerikan İstatistik Derneği Dergisi , 88 , 486-494 (1993), ancak bu damarda daha fazla makale bulunabilir.
Genel olarak, saygın istatistiksel belgeler tam olarak sonuçlar değişmez olduğu için çapraz doğrulama protokolünü belirtir. Büyük veri kümeleri için çok sayıda kat seçtikleri durumlarda, model seçimindeki önyargıları belirtir ve düzeltmeye çalışırlar.