Sınıflandırmada eğitim verilerinin üretilmesi için tabakalı ve rastgele örneklemenin faydaları


21

Orijinal veri kümesini sınıflandırma için eğitim ve test setine bölerken rastgele örnekleme yerine tabakalı örnekleme kullanmanın herhangi bir / bazı avantajları olup olmadığını bilmek istiyorum.

Ayrıca, tabakalı örnekleme sınıflandırıcıya rastgele örneklemeden daha fazla yanlılık getirir mi?

Veri hazırlama için tabakalı örnekleme kullanmak istediğim uygulama, orijinal veri kümesinin üzerinde eğitilmiş bir Random Forests sınıflandırıcısıdır . Sınıflandırıcıdan önce, sınıfların boyutunu dengeleyen bir sentetik örnek oluşturma aşaması (SMOTE [1]) da vardır.23

[1] Chawla, Nitesh V., vd. " SMOTE: sentetik azınlık aşırı örnekleme tekniği. " Yapay Zeka Araştırmaları Dergisi 16 (2002): 321-357.

Yanıtlar:


21

Tabakalı örnekleme , bir veri kümesini, her bir bölünmenin bir şeyle benzer olması için bölmeyi amaçlamaktadır.

Bir sınıflandırma ayarında, genellikle tren ve test setlerinin komple set ile her bir hedef sınıfın yaklaşık aynı örnek yüzdesine sahip olmasını sağlamak için seçilir.

Sonuç olarak, veri kümesinde her sınıfın büyük bir miktarı varsa, tabakalı örnekleme rastgele örnekleme ile hemen hemen aynıdır. Ancak, bir sınıf veri kümesinde çok fazla temsil edilmiyorsa, bu, veri kümenizde azınlık sınıfını aşırı örneklemeyi planladığınız için geçerli olabilir, o zaman tabakalı örnekleme, tren ve test setlerinde rastgele olandan farklı bir hedef sınıf dağılımı sağlayabilir örnekleme verilebilir.

Tabakalı örneklemenin, bir sonraki tren ve test setlerindeki bazı özellikleri eşit olarak dağıtmak için tasarlanabileceğini unutmayın. Örneğin, her numune bir bireyi temsil ediyorsa ve bir özellik yaş ise, bazen hem trende hem de test setinde aynı yaş dağılımına sahip olmak yararlı olabilir.

Bilginize:

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.