Sınıflandırma için eğitim setinden kopyaları kaldırın


9

Diyelim ki bir sınıflandırma problemi için birkaç satırım var:

X1,...XN,Y

Nerede X1,...,XN özellikler / öngörücüler ve Y satırın özellik kombinasyonunun ait olduğu sınıftır.

Birçok özellik kombinasyonu ve sınıfları bir sınıflandırıcı sığdırmak için kullandığım veri kümesinde tekrarlanır. Ben sadece (temelde bir group by X1 ... XN YSQL gerçekleştirmek) kopyalarını kaldırmak için kabul edilebilir olup olmadığını merak ediyorum ? Teşekkürler.

Not:

Bu, yalnızca sınıf önceliklerinin oldukça çarpık olduğu ikili bir varlık veri kümesi içindir

Yanıtlar:


13

Hayır, kabul edilemez. Tekrarlar, kanıtların ağırlığını sağlar.

Kopyalarınızı kaldırırsanız, dört yapraklı bir yonca normal, üç yapraklı bir yonca kadar önemlidir, çünkü her biri bir kez gerçekleşir, oysa gerçek hayatta her 10.000 düzenli yonca için dört yapraklı bir yonca vardır.

Öncelikleriniz "oldukça çarpık" olsa bile, dediğin gibi, eğitim setinin amacı, frekans bilgilerini kaybederseniz elde edemeyeceğiniz gerçek yaşam deneyimini biriktirmektir.


1

Önceki yanıta katılıyorum ama işte benim rezervasyonları. Karar Ağaçları gibi belirli sınıflandırıcılar için eğitim ve test amacıyla örnekleri ayırırken kopyaların kaldırılması tavsiye edilir . Diyelim ki verilerinizin% 20'si belirli bir sınıfa ait ve14thteste tabi tutulanlardan daha sonra Karar Ağaçları gibi algoritmalar , yinelenen örneklerle o sınıfa ağ geçitleri oluşturur . Bu, test setinde yanıltıcı sonuçlar sağlayabilir çünkü esasen doğru çıktıya çok spesifik bir ağ geçidi vardır .

Bu sınıflandırıcıyı tamamen yeni verilere dağıtırsanız, yukarıda belirtilen% 20 örneklere benzer bir örnek yoksa şaşırtıcı derecede kötü performans gösterebilir.

Argüman : Bu durumun kusurlu bir veri kümesine işaret ettiği iddia edilebilir, ancak bunun gerçek yaşam uygulamaları için geçerli olduğunu düşünüyorum.

Yapay Sinir Ağları, Bayes modelleri vb. İçin kopyaları kaldırmak kabul edilemez.


Başka bir uygun çözüm, kopyaların meydana gelme sıklığına bağlı olarak daha düşük ağırlığa sahip olması olabilir.
Rakshit Kothari
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.