Çapraz onaylama ile çalışmanın yolunu gerçekten doğru bir şekilde tanımladınız. Aslında, sonunda makul bir onaylama yaptığınız için 'şanslısınız', çünkü genellikle bir modeli optimize etmek için çapraz onaylama kullanılır, ancak "gerçek" bir onaylama yapılmaz.
@Simon Stelling'in yorumunda söylediği gibi, çapraz değerlendirme daha düşük tahmini hatalara yol açacaktır (bu, verileri sürekli olarak yeniden kullandığınızdan dolayı mantıklıdır), ama neyse ki bu tüm modeller için geçerlidir, bu nedenle, felaketi engellemek (yani: hatalar yalnızca azaltılır) "kötü" bir model için hafifçe ve "iyi" model için daha fazlası), çapraz değerlenmiş bir kriterde en iyi performansı gösteren modeli seçmek, genellikle de "gerçek" için en iyisi olacaktır.
Bazen daha düşük hataları düzeltmek için kullanılan bir yöntem, özellikle de parsimonlu modeller arıyorsanız, çapraz değerlenmiş hatanın (çapraz değerlenmiş) optimumdan bir SD içinde olduğu en küçük modeli / en basit yöntemi seçmektir. Çapraz değerlemenin kendisi olarak, bu bir sezgiseldir, bu yüzden biraz dikkatli kullanılmalıdır (eğer bir seçenek ise: ayarlama parametrelerinize karşı hatalarınızı işaretleyin: bu size kabul edilebilir sonuçların olup olmadığı hakkında bir fikir verecektir)
Hataların aşağı doğru eğilim göz önüne alındığında, önemlidir değil söz Bilmiyorum çok fazla yayın gördük: Doğruyu söylemek gerekirse her ne kadar bu (çapraz geçerlilik geldiğini söz etmeden çapraz geçerlilik gelen hataları veya diğer performans ölçüsü yayımlamak Performans verileri, orijinal veri setindeki performansı kontrol etmekten de elde edilmiştir - yani çapraz değerleme yapmak aslında sonuçlarınızı daha da değerli kılar ). Doğrulama ayarınız olduğu için bu sizin için sorun olmayacak.
Son bir uyarı: eğer modeliniz uygunsa bazı yakın rakiplerle sonuçlanırsa, performanslarını daha sonra onaylama setinizdeki performanslarına bakmak iyi bir fikirdir, ancak son model seçiminizi buna dayandırmayın: Vicdan, ancak "son" modeliniz, validasyon setine bakmadan önce seçilmiş olmalıdır.
İkinci sorunuza göre: Simon'ın yorumunda ihtiyacınız olan tüm cevapları size verdiğine inanıyorum, ancak resmi tamamlamak için: Sık sık, oyunda ortaya çıkan önyargılı değişiklik. Ortalama olarak, doğru sonuca ulaşacağınızı biliyorsanız (tarafsızlık), fiyat genellikle bireysel hesaplamanızın çok uzağında (yüksek sapma) olabilir. Eski günlerde, tarafsızlık nec artı ultra idi, mevcut günlerde, kişi bir (küçük) önyargıyı kabul etti (böylece hesaplamalarınızın ortalamasının doğru sonuçla sonuçlanacağını bile bilmiyorsunuz) düşük varyansa neden olur. Deneyimler, terazinin 10 kat çapraz değerleme ile kabul edilebilir olduğunu göstermiştir. Sizin için önyargı yalnızca model optimizasyonunuz için bir sorun olacaktır. çünkü daha sonra değerlendirme setinde (tarafsız bir şekilde) kriteri tahmin edebilirsiniz. Bu nedenle, çapraz değerlendirme kullanmamak için çok az sebep vardır.