Tren, doğrulama ve test yüzdelerinizin ne olduğuna nasıl karar verirsiniz?

10

Etiketlenmiş verilerimi eğitim, doğrulama ve test setlerine böldüğümde, 50/25/25 - 85/5/10 arasındaki her şeyi duydum. Eminim bu, modelinizi nasıl kullanacağınıza ve öğrenme algoritmanıza ne kadar uymaya eğilimli olduğuna bağlıdır. Karar vermenin bir yolu var mı yoksa hepsi kural mı? ELSII bile bu konuda belirsiz görünüyor.

machine-learning cross-validation

— Ed Fine
kaynak

Bu Stackoverflow Soru-Cevap konusunun her biri> 30 yukarı vekil ile iki iyi cevabı var. stackoverflow.com/questions/13610074/…

— Luke Singham

13

Yeniden örneklemeden bölünmüş örnek doğrulaması (çapraz doğrulama veya daha iyisi: önyükleme) çok büyük bir örneğiniz yoksa (örn. ) güvenilir değildir . Tüm model seçim adımlarını her bootstrap döngüsünde tekrarlanabilecek şekilde programladığınız varsayılarak, bootstrap kullanılarak sıkı dahili doğrulama genellikle tercih edilir. Bölünmüş örnekleme yaklaşımlarındaki sorunlardan biri, volatilitenin yanı sıra, bölünmüş kesirleri seçmedeki zorluktur. $N>20000$

— Frank Harrell
kaynak

Ve ya 10000 <N <1000000 gibi daha büyük ölçekli verilerde (ancak büyük verilerde değil) çalışıyorsanız? Bu noktada bölünme makul görünmektedir. Bu, karşılaştığım durumların hepsine değil ama hepsine uyuyor.

— Ed Fine

Oldukça makul olabilir.

— Frank Harrell

N = 95.000.000'um var (9.500.000'i uzak tut). Denememi 10x tekrarlamam gerekmediğini söyleyen bir referans nerede?

— dranxo

2

Sadece iki kez koşun (2 bölme) ve sonuçların ne kadar değiştiğini göreceksiniz. Muhtemelen çok az değişiklik gösterirler, sadece bir bölünmeye ihtiyacınız vardır. Böyle büyük bir örnek büyüklüğüne sahip bir oran için bir güven aralığının genişliğini düşünün.

— Frank Harrell

3

Uygulamaya bağlı olarak, belirsizliği atlayabilir ve bunun yerine önyükleme kullanabilirsiniz.

Vikipedi: http://en.wikipedia.org/wiki/Bootstrapping_(statistics)

İlgili soru burada. Doğrulama ve model seçimi için önyüklemeyi anlama

— DL Dahly
kaynak

3

Tabii ki (çift) yeniden örnekleme için bölme oranlarına karar vermelisiniz ...

Bununla birlikte, yeniden örnekleme, aklınızda bulundurursanız genellikle oldukça geniş bir bölünme oranları aralığında çalışır

olası farklı koşuların sayısını azaltacaksa, bir kez bırakma
en içteki eğitim setinde yeterli eğitim vakası bırakın, böylece algoritma yararlı bir model üretmek için iyi bir şansa sahiptir.
ne kadar bağımsız vakalarınız varsa, bu düşünceler o kadar az önemlidir.

Ve ya 10000 <N <1000000 gibi daha büyük ölçekli verilerde (ancak büyük verilerde değil) çalışıyorsanız?

Yeniden örneklemenin gerekli olduğundan emin değilseniz ne yapabilirsiniz: birkaç kez yeniden örnekleyin. Yeter ki yeniden örneklemenin gerekli olup olmadığını ölçebilirsiniz.

tahminlerinizin istikrarını kontrol edin
model parametrelerinizin kararlılığını kontrol edin

Bu sonuçlarla, daha fazla yeniden örnekleme yinelemesi eklemeniz gerekip gerekmediğine veya her şeyin olduğu gibi iyi olup olmadığına karar verebilirsiniz.

— SX ile mutsuz cbeleites
kaynak

2

Bunun zor ve hızlı bir kuralı yoktur. Ancak ampirik analiz, ne kadar fazla eğitim verisine sahip olursanız, doğruluğunuzun o kadar iyi olacağını göstermiştir. Ancak ne yaparsanız yapın, tüm eğitim / doğrulama / test verilerinizi bir araya getirmeyi ve tamamlarken 10 kat CV yapmayı unutmayın. Bu, denemeniz sırasında fazla / fazla uygunluk problemi hakkında çok iyi bir fikir verir.

— Rushdi Shams
kaynak

1

Bence hangi soruları cevaplamaya çalıştığınız önemli. Birden fazla algoritma arasındaki performans farkının doğru bir görünümünü görmek ister misiniz? O zaman oldukça büyük bir doğrulama setine ihtiyacınız var. Bir algoritmanın N = 10000 örnekleri için ne kadar iyi performans gösterdiğiyle ilgileniyor musunuz? Sonra tren setine en az 10000 numune koymalısınız.

Daha büyük bir doğrulama seti, sonuçlarınız hakkında daha fazla istatistiksel kesinlik sağlar, ancak kesinlik, daha az örnek üzerinde eğitilmiş bir algoritmanın performansı ile ilgilidir, bu da sonunda olduğunuz gibi olmayabilir.

— MLS
kaynak