Bir kritik ayrım istediğiniz olup olmadığıdır:
- [En yaygın durum]: Yeni konulardaki (verilerinizle aynı popülasyondan alınan) bir performans tahmini oluşturun.
- Örneğinizle aynı konulardaki yeni gözlemlerde bir performans tahmini oluşturun .
Çok daha yaygın olan durum vaka numarasıdır (1). Örneğin, acil servise gelen biri için kalp krizlerini ne kadar iyi tahmin edersiniz? Eğer durum (1) iseniz Ve, hemen hemen kesinlikle , (b) rekor akıllı çapraz doğrulama yerine (a) tabi akıllıca çapraz doğrulama yapmalıdır. Muhtemelen (1) durumunda rekor düzeyde validasyon yapılması, yeni deneklerde makul olmayan şekilde yüksek, sahte performans tahminlerine yol açacaktır.
Ne yapmaya çalıştığınızı tam olarak anlamıyorum (ve belki de kendi kendine çalışmadır, bu yüzden soru tamamen gerçekçi değildir). Hangi durumda olduğunuzu bilmiyorum. Çok daha az yaygın bir durumdaysanız (2), akıllıca kayıt doğru olabilir.
İstatistiklerdeki genel bir tema, neyin bağımsız ve neyin ilişkili olduğu hakkında dikkatlice düşünmektir. Genel olarak, bağımsız bir gözlem farklı bir özne olma eğilimindedir . Yeni konulardaki performansı tahmin etmek istiyorsanız , eğitim almadığınız konuları test etmelisiniz!
Neden rekor değil, özne çapraz doğrulama?
Tipik ortamlarda, aynı bireyin tekrarlanan gözlemleri, özelliklerin şartlandırılmasından sonra bile birbiriyle ilişkilidir. Dolayısıyla, rekor düzeyde çapraz doğrulama ile, test setiniz egzersiz setinizden bağımsız değildir ! Aşırı mükemmel korelasyon durumunda, eğitim setinde ve test setinde aynı gözlemlere sahip olacaksınız! Test setinde antrenman yapardın! Çapraz doğrulama ölçülen performans olur olmayan yeni konularda performansı gösterdiği.
Örneğin, bu son makalede rekor düzeyde çapraz doğrulama, `` Voodoo Machine Learning. ''
Bu kadar az sayıda konu ile ne yapmalı ...
k=n
Eğitim verilerini en üst düzeye çıkarmak için yapabileceğiniz bir şey, çapraz doğrulama için bir konuyu dışarıda bırakmaktır. Her yineleme, farklı bir uzaklaştırma konusunu test edin ve diğerlerini eğitin.
n=38