Örnek sayısına karşı örnek sayısına ilişkin herhangi bir “temel kural” var mı? (küçük veri setleri)


17

Merak ediyorum, özelliklerin sayısı ile gözlem sayısı arasında herhangi bir buluşsal yöntem varsa. Açıkçası, eğer bir dizi özellik gözlem sayısına eşitse, model aşırıya kaçacaktır. Seyrek yöntemler (LASSO, elastik ağ) kullanarak modeli azaltmak için çeşitli özellikleri kaldırabiliriz.

Benim sorum (teorik olarak): Model seçimini değerlendirmek için metrikleri kullanmadan önce , optimum özellik sayısını gözlem sayısıyla ilişkilendiren ampirik gözlemler var mı?

Örneğin: her sınıfta 20 örneği olan bir ikili sınıflandırma sorunu için, kullanılacak özellik sayısında herhangi bir üst sınır var mı?

Yanıtlar:


14

Birden fazla makale

sadece nadir durumlarda hatanın özellik sayısının ve örneklem büyüklüğünün bir fonksiyonu olarak bilinen bir dağılımı vardır.

Belirli bir örnek ve özellik kümesi için hata yüzeyi, özellikler arasındaki korelasyonun (veya eksikliğinin) bir fonksiyonudur.

Bu makale aşağıdakileri önermektedir:

  • N--1N-
  • Özellik korelasyonu arttıkça ve optimum özellik boyutu orantılı hale geldiğindeN-

Alınabilecek bir başka (ampirik) yaklaşım, aynı veri kümesinden farklı örnek boyutları için öğrenme eğrilerini çizmek ve bunu farklı örnek boyutlarındaki sınıflandırıcı performansını tahmin etmek için kullanmaktır. İşte makalenin bağlantısı .


2
Hua cevabının önemli bir varsayımı eksik olduğu için bu cevabı biraz yanıltıcı buluyorum: Hua ve ark. bağlantılı makalede tüm bilgilendirici olduğunu düşünün , bu pratikte olmasını beklediğiniz şey değildir. IMHO bu açıkça belirtilmelidir, IMHO en yaygın korelasyonlu olmayan "özellikler" bilgilendirici olmayan ölçüm kanallarıdır.
cbeleites Monica

Wrt. öğrenme eğrileri: OP muhtemelen 2 × 20 vaka ile kullanamayacaktır, çünkü çok az vakadan yararlı bir hassasiyetle ölçülemezler. Hua kısaca bundan bahsediyor ve bu cevabı, aşağıda cevabımda bağladığım makalede daha ayrıntılı olarak tartıştık.
cbeleites Monica

8

kendi deneyimlerime göre: Bir durumda, birçok sınıf, çok ciddi veri dengesizliği sorunu ile çok küçük (300 görüntü) gerçek veritabanı ile çalıştım ve 9 özellikleri kullanarak sona erdi: SIFT, HOG, Şekil bağlamı, SSIM, GM ve 4 DNN tabanlı özellik. Başka bir durumda, çok büyük bir veritabanı (> 1 M görüntüler) ile çalıştım ve sadece HOG özelliğini kullandım. Örneklerin sayısı ile yüksek doğruluk için gereken özellik sayısı arasında doğrudan bir ilişki olmadığını düşünüyorum. AMA: sınıfların sayısı, sınıflar arasındaki benzerlik ve aynı sınıf içindeki varyasyon (bu üç parametre) özelliklerin sayısını etkileyebilir. birçok sınıfa sahip daha büyük bir veritabanına ve sınıflar arasında büyük benzerliğe ve aynı sınıf içindeki büyük farklılığa sahipken, yüksek doğruluk elde etmek için daha fazla özelliğe ihtiyacınız vardır. HATIRLAMAK:


@Bashar Haddad: Yanlışsam beni düzelt (hem bilgisayar vizyonunda hem de ML'de yeniyim), HOG özelliği aslında yüksek boyutlu bir vektör değil (benim durumumda 1764 boyutlu HOG özellikleri alıyordum). Peki 9 özellik söylediğinizde ve bunlardan biri HOG olduğunda, aslında sadece HOG için yüksek boyutlu bir özellik alanı almıyor musunuz?
Mathmath

1
Literatürde, özellik türünü veya boyut dizinini belirtmek için özellik kelimesini kullanırlar. Yani 6 özellik kullandığımı söylediğimde, bu 6 özellik türü kullandığım anlamına geliyor, her biri (1 x D) vektörü. Hog özellik türünden bahsediyorsam, her boyut bir özellik olabilir.
Beşar Haddad

2

Bu değişir ... ama elbette bu cevap seni hiçbir yere götürmez.

Model karmaşıklığı için bazı temel kurallar: Verilerden öğrenme - VC boyutu

"Çok kabaca" her model parametresi için 10 veri noktasına ihtiyacınız var. Model parametrelerinin sayısı, özellik sayısına benzer olabilir.


2

Partiye biraz geç, ama işte bazı buluşsal yöntemler.

Her sınıfta 20 örnek ile ikili sınıflandırma problemi, kullanılacak özellik sayısında üst sınır var mı?

  • İçin eğitim doğrusal sınıflandırıcıların, 3 - sınıf ve özellik başına 5 bağımsız olgular tavsiye edilir. Bu sınır size güvenilir bir şekilde istikrarlı modeller verir , iyi bir modeli garanti etmez (bu mümkün değildir: hiçbir modelin iyi bir genelleme performansı elde edemediği, bilgi vermeyen verileriniz olabilir)

  • Ancak, senaryonuz kadar küçük örnek boyutları için, eğitimden ziyade doğrulama (doğrulama) darboğazdır ve doğrulama, model karmaşıklığına bağlı durumlardan ziyade mutlak sayıda test senaryosuna bağlıdır: Temel kural olarak, test 100 testine ihtiyacınız vardır paydada,% 10'dan daha geniş olmayan bir güven aralığı ile bir oran tahmin etmek.

    Maalesef bu aynı zamanda temel olarak uygulamanız için ampirik öğrenme eğrisini alamayacağınız anlamına gelir: yeterince yeterince ölçemezsiniz ve pratikte bunu tahmin etmek için büyük zorluklarınız olur çünkü eğitim için modelinizi kısıtlayarak küçük örneklem boyutuna tepki gösterirsiniz. karmaşıklığı - ve artan örnek boyutu ile rahatlatır.

    Ayrıntılar için makalemize
    bakın: Beleites, C. ve Neugebauer, U. ve Bocklitz, T. ve Krafft, C. ve Popp, J .: Sınıflandırma modelleri için örnek büyüklüğü planlama. Anal Chim Açta, 2013, 760,25-33. DOI: 10.1016 / j.aca.2012.11.007 arXiv'de
    kabul edilen makale: 1211.1323

  • Bu önerilere yakın hiçbir şeyim olmadı (spektroskopi verileri, tıbbi uygulamalar için de). O zaman yaptığım şey: Modelleme ve doğrulama sürecinin bir parçası olarak model kararlılığını çok yakından ölçüyorum.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.