Aradığınız terim, eğitim örneklem büyüklüğünün bir işlevi olarak (ortalama) model performansı veren "öğrenme eğrisi" dir.
Öğrenme eğrileri birçok şeye bağlıdır, örneğin
- sınıflandırma yöntemi
- sınıflandırıcının karmaşıklığı
- sınıfların ne kadar iyi ayrıldığı.
(İki sınıf LDA için bazı teorik güç hesaplamaları yapabileceğinizi düşünüyorum, ama asıl gerçek her zaman verilerinizin gerçekten "eşit COV çok değişkenli normal" varsayımına uyup uymadığıdır. Mevcut verilerinizin varsayımları ve yeniden örneklenmesi).
sonlu örneklem büyüklüğü üzerinde eğitilmiş bir sınıflandırıcı performansının iki yönü vardırn
Dikkate almanız gerekebilecek diğer bir husus, iyi bir sınıflandırıcı yetiştirmenin genellikle yeterli olmadığı, ancak sınıflandırıcının iyi (veya yeterince iyi) olduğunu da kanıtlamanız gerektiğidir. Bu nedenle, belirli bir hassasiyetle doğrulama için gereken örneklem büyüklüğünü de planlamanız gerekir. Bu sonuçları bir çok test durumu (örneğin, üreticinin veya tüketicinin doğruluğu / hassasiyeti / hassasiyeti / pozitif öngörücü değeri) arasındaki başarı oranı olarak vermeniz gerekiyorsa ve altta yatan sınıflandırma görevi eğitimden çok daha bağımsız vakalara ihtiyaç duyabilir. iyi bir model.
Genel bir kural olarak, eğitim için, örneklem büyüklüğü genellikle model karmaşıklığına bağlı olarak ele alınmaktadır (vaka sayısı: değişken sayısı), ancak test örneklemindeki mutlak sınırlar performans ölçümünün gerekli bir kesinliği için verilebilir.
İşte bunları daha ayrıntılı olarak açıkladığımız ve öğrenme eğrilerinin nasıl oluşturulacağı üzerine bir
makale : Beleites, C. ve Neugebauer, U. ve Bocklitz, T. ve Krafft, C. ve Popp, J .: Örneklem büyüklüğü planlaması sınıflandırma modelleri için. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007 arXiv’de
kabul edilen makale: 1211.1323
Bu, kolay bir sınıflandırma problemini gösteren "teaser" dir (sınıflandırma problemimizde aslında bunun gibi kolay bir farkımız var, ancak diğer sınıfları ayırt etmek çok daha zor):
Ne kadar daha fazla eğitim vakasına ihtiyaç duyulduğunu belirlemek için daha büyük eğitim örneği boyutlarına ekstrapolasyon yapmaya çalışmadık, çünkü test örneği boyutları bizim darboğazımızdır ve daha büyük eğitim örneği boyutları daha karmaşık modeller oluşturmamızı sağlar, bu nedenle ekstrapolasyon sorgulanabilir. Sahip olduğum veri kümeleri için, buna bir çok yeni vakayı ölçerek, ne kadar geliştiğini gösteren, daha fazla vakayı ölçen vb.
Bu sizin için farklı olabilir, ancak makale, gerekli örnek sayısını tahmin etmek için daha yüksek örneklem boyutlarına ekstrapolasyon kullanan kağıtlara literatür referansları içeriyor.