Ne kadar büyük bir eğitim seti gereklidir?


24

Minimum bir eşik genelleme doğruluğu elde etmek için bir sınıflandırıcı (bu durumda bir LDA) yetiştirmek için kaç eğitim örneğinin gerekli olduğunu belirlemek için kullanılan yaygın bir yöntem var mı?

Soruyorum çünkü genellikle bir beyin-bilgisayar arayüzünde gerekli olan kalibrasyon süresini en aza indirmek istiyorum.


2
user2030669, cbeleites cevap aşağıda mükemmel ama kaba bir kural olarak: özellikleri olarak vakaların (örneklerin) en az 6 katı gerekir.
BGreene

2
... her sınıfta. Ayrıca 5 p ve 3 p / sınıf önerileri gördüm.
cbeleites, Monica

Yanıtlar:


31

Aradığınız terim, eğitim örneklem büyüklüğünün bir işlevi olarak (ortalama) model performansı veren "öğrenme eğrisi" dir.

Öğrenme eğrileri birçok şeye bağlıdır, örneğin

  • sınıflandırma yöntemi
  • sınıflandırıcının karmaşıklığı
  • sınıfların ne kadar iyi ayrıldığı.

(İki sınıf LDA için bazı teorik güç hesaplamaları yapabileceğinizi düşünüyorum, ama asıl gerçek her zaman verilerinizin gerçekten "eşit COV çok değişkenli normal" varsayımına uyup uymadığıdır. Mevcut verilerinizin varsayımları ve yeniden örneklenmesi).

sonlu örneklem büyüklüğü üzerinde eğitilmiş bir sınıflandırıcı performansının iki yönü vardırn

  • nn=
  • n

    n

Dikkate almanız gerekebilecek diğer bir husus, iyi bir sınıflandırıcı yetiştirmenin genellikle yeterli olmadığı, ancak sınıflandırıcının iyi (veya yeterince iyi) olduğunu da kanıtlamanız gerektiğidir. Bu nedenle, belirli bir hassasiyetle doğrulama için gereken örneklem büyüklüğünü de planlamanız gerekir. Bu sonuçları bir çok test durumu (örneğin, üreticinin veya tüketicinin doğruluğu / hassasiyeti / hassasiyeti / pozitif öngörücü değeri) arasındaki başarı oranı olarak vermeniz gerekiyorsa ve altta yatan sınıflandırma görevi eğitimden çok daha bağımsız vakalara ihtiyaç duyabilir. iyi bir model.

Genel bir kural olarak, eğitim için, örneklem büyüklüğü genellikle model karmaşıklığına bağlı olarak ele alınmaktadır (vaka sayısı: değişken sayısı), ancak test örneklemindeki mutlak sınırlar performans ölçümünün gerekli bir kesinliği için verilebilir.

İşte bunları daha ayrıntılı olarak açıkladığımız ve öğrenme eğrilerinin nasıl oluşturulacağı üzerine bir
makale : Beleites, C. ve Neugebauer, U. ve Bocklitz, T. ve Krafft, C. ve Popp, J .: Örneklem büyüklüğü planlaması sınıflandırma modelleri için. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007 arXiv’de
kabul edilen makale: 1211.1323

Bu, kolay bir sınıflandırma problemini gösteren "teaser" dir (sınıflandırma problemimizde aslında bunun gibi kolay bir farkımız var, ancak diğer sınıfları ayırt etmek çok daha zor): teaser örneklem büyüklüğü planlama kağıdı

Ne kadar daha fazla eğitim vakasına ihtiyaç duyulduğunu belirlemek için daha büyük eğitim örneği boyutlarına ekstrapolasyon yapmaya çalışmadık, çünkü test örneği boyutları bizim darboğazımızdır ve daha büyük eğitim örneği boyutları daha karmaşık modeller oluşturmamızı sağlar, bu nedenle ekstrapolasyon sorgulanabilir. Sahip olduğum veri kümeleri için, buna bir çok yeni vakayı ölçerek, ne kadar geliştiğini gösteren, daha fazla vakayı ölçen vb.

Bu sizin için farklı olabilir, ancak makale, gerekli örnek sayısını tahmin etmek için daha yüksek örneklem boyutlarına ekstrapolasyon kullanan kağıtlara literatür referansları içeriyor.


LDA için bir düzenlileştirme programı kullanmak daha küçük bir eğitim seti ile çalışmama izin verir mi?
Lunat1c

1
@ user2036690, Daha temel bir model (daha az özellik) daha az eğitim örneğine ihtiyaç duyacaktır. Düzenli bir düzenleme şeması, daha az önemli özelliklerin etkisini azaltması durumunda gerekli olan örnek sayısını etkilemeyecektir. Bir çeşit özellik rasyonalizasyonu daha küçük bir eğitim setine izin verebilir
BGreene

1
Yine de veri odaklı özellik seçiminde, her model karşılaştırması aslında istatistiksel bir test olduğu için muazzam miktarda numune gerekir. Bununla birlikte, uzman bilgisine göre özellik seçimi derhal yardımcı olabilir. @BGreene: Düzenlemenin neden örnek boyut gereksinimlerini azaltmaya yardımcı olamayacağını genişletebilir misiniz (örneğin, şartlandırılmış bir kovaryans matrisindeki bir sırtı düşünerek)? IMHO harikalar yapamaz ama yardımcı olabilir.
cbeleites, Monica

Destansı bir tartışmaya girmeden, sırt veya diğer cezalandırılmış regresyondan ziyade Friedman'ın normalleştirme formülasyonuna değiniyordum. Ancak her iki şekilde de katsayılar Kement'teki gibi sıfıra indirgenmez, bu nedenle boyutsallık etkilenmez ve sonuçta yukarıda bahsettiğiniz gibi hasta pozlu bir matrisi önlemek için gereken numune boyutu üzerinde hiçbir etkisi olmaz. Bu başıboş gibi görünüyorsa özür dilerim
BGreene

@BGreene: başıboş yok, geri sordum. İlginç olan soru: Katsayıları veri odaklı bir şekilde sıfıra ayarlayarak genel df / karmaşıklığın ne kadar azaldığı . Her neyse, farklı bir hikayeye sürükleniyoruz ...
cbeleites, 20

4

Eğitim örneği büyüklüğünü sormak, model doğrulama için verileri geri alacağınız anlamına gelir. Bu, büyük bir örneklem büyüklüğü gerektiren kararsız bir işlemdir. Önyükleme ile güçlü dahili doğrulama genellikle tercih edilir. Bu yolu seçerseniz, yalnızca bir örneklem büyüklüğünü hesaplamanız gerekir. @Cbeleites'in çok güzel bir şekilde ifade ettiği gibi, bu genellikle "aday değişken başına olay sayısı" değerlendirmesidir, ancak incelenecek özellik olmasa bile, bir ikili sonuç olasılığını doğru bir şekilde tahmin etmek için en az 96 gözlem yapmanız gerekir. 0,95, Y = 1] gerçek marjinal olasılığını tahmin etmede 0,1 hatalık güven marjı].

Kesinlik değerlendirmesi için uygun puanlama kurallarını göz önünde bulundurmak önemlidir (örneğin, Brier puanı ve log olasılığı / sapma). Ayrıca, üyelik olasılığını tahmin etmenin aksine gözlemleri gerçekten sınıflandırmak istediğinizden emin olun. İkincisi, gri bir bölgeye izin verdiği için neredeyse her zaman daha kullanışlıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.