Her şeyden önce, Veri Madenciliği kitaplarının Dengesiz Veri Kümeleri ile nasıl başa çıkılacağını açıklayan bazı ortak düzenleri tanımlamak istiyorum . Genellikle ana bölüm Dengesiz Veri Kümeleri olarak adlandırılır ve bu iki alt bölümü kapsar: Maliyete Duyarlı Sınıflandırma ve Örnekleme Teknikleri.
Nadir bir sınıfla ilgili bir sorunla karşı karşıya kaldığınızda hem maliyete duyarlı sınıflandırma hem de örnekleme yapabilirsiniz. Bunun yerine, eğer nadir sınıf da sınıflandırmanın hedefi ise ve o sınıfın bir kaydının yanlış sınıflandırılmasının maliyetli olması durumunda, maliyete duyarlı tekniklerin uygulanması gerektiğini düşünüyorum.
Öte yandan, aşırı örnekleme ve yetersiz örnekleme gibi örnekleme teknikleri, sınıflandırma hedefi belirli bir sınıfa odaklanmadan genel olarak iyi bir doğruluksa faydalıdır.
Bu inanç, bir sınıflandırıcıyı maliyete duyarlı hale getirmenin genel bir yolu olan MetaCost'un mantığından gelir : eğer bir kişi, nadir sınıfın yanlış sınıflandırma hatasını cezalandırmak için bir sınıflandırıcıyı maliyete duyarlı hale getirmek istiyorsa diğer sınıfı aşırı örneklemelidir . Kabaca söylemek gerekirse, sınıflandırıcı diğer sınıfa uyum sağlamaya çalışır ve nadir sınıfa özgü olur.
Bu, nadir sınıftan aşırı örneklemenin tersidir, bu da bu sorunla başa çıkmak için genellikle önerilen yoldur. Nadir sınıftan fazla örnekleme veya diğer sınıftan az örnekleme, genel doğruluğu artırmak için yararlıdır.
Lütfen, düşüncelerimi onaylarsanız harika olur.
Bunu ifade ederek, dengesiz bir veri kümesinin karşılaştığı ortak soru şudur:
Diğerleri kadar nadir kayıtları sayan bir veri seti almaya çalışmalı mıyım?
Cevabım, doğruluk arıyorsanız: Tamam. Daha nadir sınıf örnekleri bularak veya diğer sınıfın bazı kayıtlarını silerek gerçekleştirebilirsiniz.
Nadir sınıfa odaklanmanız durumunda, maliyete duyarlı bir teknikle cevap veririm: sadece daha nadir sınıf örneği bulabilirsiniz, ancak diğer sınıfın kayıtlarını silmemelisiniz. İkinci durumda, sınıflandırıcının diğer sınıfa uyum sağlamasına izin veremezsiniz ve nadir sınıf yanlış sınıflandırma hatası artabilir.
Ne cevap verirdin?