Özellik sayısı ve gözlem sayısı

26

Özellik sayısı ile "sağlam" bir sınıflayıcı yetiştirmek için gereken gözlem sayısı arasındaki ilişki hakkında herhangi bir makale / kitap / fikir var mı?

Örneğin, bir eğitim seti olarak iki sınıftan 1000 özellik ve 10 gözlem, ve bir test seti olarak diğer 10 gözlemim olduğunu varsayalım. Bazı sınıflandırıcı X'i eğitiyorum ve test setinde bana% 90 hassasiyet ve% 90 özgüllük sağlıyor. Diyelim ki bu doğruluktan memnunum ve bunun iyi bir sınıflandırıcı olduğunu söyleyebilirim. Öte yandan, sadece 10 puan kullanarak 1000 değişkenlik bir fonksiyona yaklaştım.

machine-learning

— Aslan burcu
kaynak

20

Burada vurduğunuz şey , boyutluluğun laneti veya p >> n problemidir (burada p, p yordayıcıdır ve n gözlemdir). Bu sorunu çözmek için yıllar içinde geliştirilen birçok teknik vardır. Daha fazla tahmine sahip modelleri cezalandırmak için AIC veya BIC'yi kullanabilirsiniz . Rasgele değişken kümeleri seçebilir ve çapraz doğrulama kullanarak önemini değerlendirebilirsiniz . Sen kullanabilirsiniz sırt-regresyon , kement veya elastik net için regularization . Veya bir destek vektör makinesi veya çok sayıda tahminciyle iyi ilgilenen rastgele bir orman gibi bir teknik seçebilirsiniz .

Dürüst olmak gerekirse, çözüm, çözmeye çalıştığınız sorunun özelliğine bağlıdır.

— Zach
kaynak

9

$\vec{+1}$ $\vec{-1}$ $0.000001*\vec{I}$ $\vec{I}$ Hiçbir eğitim verisi size yararlı bir sınıflandırıcı vermeyecektir. Günün sonunda, belirli sayıda özellik için ihtiyaç duyduğunuz numune miktarı, verilerin nasıl dağıtıldığına, genel olarak, ne kadar çok özelliğe sahipseniz, verilerin dağılımını yeterince tanımlamak için gereken veri miktarına bağlıdır. (eğer şanssızsanız, özelliklerin sayısında üstel - Zach tarafından belirtilen boyutluluk lanetine bakın).

Düzenleme kullanıyorsanız, o zaman prensipte (bir üst sınır) genelleme hatası, özelliklerin sayısından bağımsızdır (bkz. Vapnik'in destek vektör makinesindeki çalışması). Bununla birlikte, normalizasyon parametresi için iyi bir değer bulma problemi kalmaktadır (çapraz doğrulama kullanışlıdır).

— Dikran Marsupial
kaynak

9

Muhtemelen Runge paradoksuna benzer sorunlara karşı savunmasız olan ve bu nedenle işlem sonrası için biraz para cezası ayarlaması gerektiren klasik modellemeden çok etkilendiniz .
Bununla birlikte, makine öğrenmesi durumunda, sağlamlığı model optimizasyonunun bir amacı olarak dahil etme fikri sadece tüm alanın çekirdeğidir (genellikle görülmeyen verilerde doğruluk olarak ifade edilir). Öyleyse, modelinizin iyi çalıştığını bildiğiniz sürece (örneğin CV'den) muhtemelen rahatsız etmenin bir anlamı yoktur.

Asıl sorun $p\gg n$ ML durumunda, ilgisiz niteliklerdir - çoğunlukla bazıları, bazı rastgele dalgalanmalar nedeniyle, karar vermede gerçekten ilgili kararlardan daha uygun olabilir. Açıkçası, bu meselenin para cezası ile hiçbir ilgisi yok, ancak klasik davadaki gibi, genelleme gücünün korkunç şekilde kaybedilmesiyle sonuçlanıyor. Nasıl çözüleceği, özellik seçimi adı verilen farklı bir hikaye - ancak genel fikir, modeli kısıtlamak yerine, gürültüyü yaymak için verileri önceden işlemek.

1

Yıllar boyunca kesinlikle en değerli kitaplarımdan biri Tinsley ve Brown'ın El Kitabı oldu . Kitapta, bu konunun tartışıldığı, katkıda bulunan farklı yazarlar tarafından birçok yer var.

— rolando2
kaynak