Üçüncü yol doğrudur. Tam olarak neden İstatistiki Öğrenmenin Öğeleri bölümünde ayrıntılı olarak ele alınmaktadır , borsa örneğinde " Veri Doğrulamayı Doğru Yapmanın Yanlış ve Doğru Yolu" bölümüne ve ayrıca Veriden Öğrenmenin son bölümüne bakınız .
Temel olarak, 1. ve 2. prosedürler, sizin verdiğiniz bilgilerden, modelinizin eğitimine veya değerlendirmesine yanıt olarak veya gelecekten gelen yanıtlar hakkında bilgi sızdırıyor. Bu, model değerlendirmenizde önemli bir iyimserlik yanlılığına neden olabilir.
Model doğrulamasındaki fikir, modeliniz üretim kararları alırken, gerçek cevaba erişemediğinizde olacağınız durumu taklit etmektir. Sonucu bir şey için deney setinde yanıtını kullanamazsınız olmasıdır haricinde tahmin edilen değerlerle karşılaştırarak.
Yaklaşmanın başka bir yolu, bir anda bekletmeden aldığınız tek bir veri noktasına erişiminiz olduğunu (üretim modelleri için ortak bir durum) hayal etmektir. Bu varsayım altında yapamayacağınız herhangi bir şey , büyük bir şüpheyle tutmalısınız. Açıkçası, yapamayacağınız bir şey, üretim veri akışınızı normalleştirmek için geçmiş ve gelecek tüm yeni veri noktalarında toplanmaktır - bu nedenle model doğrulama için aynısını yapmak geçersizdir.
Test setinizin sıfır olmadığının ortalaması hakkında endişelenmenize gerek yok, bu, performans performans tahminlerinizi bastırmaktan daha iyi bir durum. Tabii ki, eğer test treninizle aynı temel dağılımdan gerçekten alınmışsa (istatistiksel öğrenmede temel bir varsayım), söylenen ortalama yaklaşık sıfır olarak çıkmalıdır.
R
? Bu soruya bakınız: stackoverflow.com/questions/49260862/…