Verilerimi yeniden karıştırmalı mıyım?


9

Elde edilmesi oldukça pahalı olan bir dizi biyolojik örneğimiz var. Bu örnekleri, öngörülü bir model oluşturmak için kullanılan verileri oluşturmak için bir dizi testten geçirdik. Bu amaçla örnekleri eğitim (% 70) ve test (% 30) setlerine ayırdık. Başarıyla bir model oluşturduk ve performansın "optimalden daha az" olduğunu keşfetmek için test setine uyguladık. Deneyciler şimdi daha iyi bir model oluşturmak için biyolojik testleri geliştirmek istiyorlar. Yeni örnekler elde edemediğimiz takdirde, yeni eğitim ve doğrulama setleri oluşturmak veya orijinal bölüme sadık kalmak için örnekleri yeniden karıştırmamızı önerir misiniz? (Bölünmenin sorunlu olduğuna dair bir işaretimiz yok).


1
Verileri nasıl böldünüz? Rastgele, elle veya başka bir yöntemle mi? Gerçekte, "başarılı bir şekilde model yaratma" hakkındaki kısım, konunun ÇOK daha büyük bir kısmıdır. Pahalı şeyler yapmadan önce, uygun tipte bir model kullanıp kullanmadığınızı, egzersiz verilerinizden daha uygun olup olmadığınızı ve tahmin etmeye çalıştığınız şey için uygun verilere sahip olup olmadığınızı görmelisiniz.
Wayne

BTW, "başarıyla bir model oluşturduktan" kinizm modunu açmayı unuttum
DavidDong

Yanıtlar:


12

Zaten bir holdout örneği kullandığınızda, tüm modellerin özellikler arasında aynı ilişkileri göz önünde bulundurması için bunu aynı eğitim örneğinde tutup yeni modellerinizi oluşturmanız gerektiğini söyleyebilirim. Ayrıca, özellik seçimi yaparsanız, numunelerin bu filtreleme aşamalarından herhangi birinden önce dışarıda bırakılması gerekir; diğer bir deyişle, özellik seçimi çapraz doğrulama döngüsüne dahil edilmelidir.

Unutmayın ki, model seçimi için 0.67 / 0.33'lük bir bölünmeden daha güçlü yöntemler vardır, bunlar k-kat çapraz doğrulama veya bir kez bırakma. Bkz. Örneğin İstatistiksel Öğrenmenin Unsurları (§7.10, s. 241-248), www.modelselection.org veya Arlot ve Celisse tarafından model seçimi için çapraz geçerlilik prosedürleri araştırması (daha ileri matematik arka planı gereklidir).

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.