Dengesiz sınıfları fazla / az örnekleme yaparken, doğruluğu en üst düzeye çıkarmak yanlış sınıflandırma maliyetlerini en aza indirmekten farklı mıdır?


14

Her şeyden önce, Veri Madenciliği kitaplarının Dengesiz Veri Kümeleri ile nasıl başa çıkılacağını açıklayan bazı ortak düzenleri tanımlamak istiyorum . Genellikle ana bölüm Dengesiz Veri Kümeleri olarak adlandırılır ve bu iki alt bölümü kapsar: Maliyete Duyarlı Sınıflandırma ve Örnekleme Teknikleri.

Nadir bir sınıfla ilgili bir sorunla karşı karşıya kaldığınızda hem maliyete duyarlı sınıflandırma hem de örnekleme yapabilirsiniz. Bunun yerine, eğer nadir sınıf da sınıflandırmanın hedefi ise ve o sınıfın bir kaydının yanlış sınıflandırılmasının maliyetli olması durumunda, maliyete duyarlı tekniklerin uygulanması gerektiğini düşünüyorum.

Öte yandan, aşırı örnekleme ve yetersiz örnekleme gibi örnekleme teknikleri, sınıflandırma hedefi belirli bir sınıfa odaklanmadan genel olarak iyi bir doğruluksa faydalıdır.

Bu inanç, bir sınıflandırıcıyı maliyete duyarlı hale getirmenin genel bir yolu olan MetaCost'un mantığından gelir : eğer bir kişi, nadir sınıfın yanlış sınıflandırma hatasını cezalandırmak için bir sınıflandırıcıyı maliyete duyarlı hale getirmek istiyorsa diğer sınıfı aşırı örneklemelidir . Kabaca söylemek gerekirse, sınıflandırıcı diğer sınıfa uyum sağlamaya çalışır ve nadir sınıfa özgü olur.

Bu, nadir sınıftan aşırı örneklemenin tersidir, bu da bu sorunla başa çıkmak için genellikle önerilen yoldur. Nadir sınıftan fazla örnekleme veya diğer sınıftan az örnekleme, genel doğruluğu artırmak için yararlıdır.

Lütfen, düşüncelerimi onaylarsanız harika olur.

Bunu ifade ederek, dengesiz bir veri kümesinin karşılaştığı ortak soru şudur:

Diğerleri kadar nadir kayıtları sayan bir veri seti almaya çalışmalı mıyım?

Cevabım, doğruluk arıyorsanız: Tamam. Daha nadir sınıf örnekleri bularak veya diğer sınıfın bazı kayıtlarını silerek gerçekleştirebilirsiniz.

Nadir sınıfa odaklanmanız durumunda, maliyete duyarlı bir teknikle cevap veririm: sadece daha nadir sınıf örneği bulabilirsiniz, ancak diğer sınıfın kayıtlarını silmemelisiniz. İkinci durumda, sınıflandırıcının diğer sınıfa uyum sağlamasına izin veremezsiniz ve nadir sınıf yanlış sınıflandırma hatası artabilir.

Ne cevap verirdin?


2
Nadir sınıflar için yeni kayıtların "bulunması" mümkün olmayabilir. Verilerin bu şekilde yapılandırıldığını düşünüyorum çünkü daha nadir sınıf olayları yaratmak pahalı (biyoinformatik) veya riskli (banka kredisi).
steffen

Tabii ki, ama ortak bir önerilen çözümdür. Bununla birlikte, daha nadir sınıf örnekleri bulabilirseniz, diğer örnekleri de bulabileceğiniz doğrudur. Çünkü eğitim seti kayıt evreninin temsili bir örneği olmalıdır. Bana öyle geliyor ki, aşırı örnekleme yapmak gibi görünüyor.
Simone

Yanıtlar:


9

Güzel bir soru. Şahsen benim cevabım, (hesaplama nedenlerinden ötürü olmadığı sürece) verileri atmanın asla mantıklı olmaması, ne kadar fazla veriye sahip olduğunuzda, dünya modelinizin daha iyi olabileceğidir. Bu nedenle, maliyet işlevinin göreviniz için uygun şekilde değiştirilmesinin yeterli olacağını öneririm. Örneğin, belirli bir nadir sınıfa ilgi duyuyorsanız, bu sınıfın yanlış sınıflandırmalarını yalnızca daha pahalı hale getirebilirsiniz; dengeli bir önlemle ilgileniyorsanız, Dengeli Hata Oranı (her sınıftaki hataların ortalaması) veya Matthews Korelasyon Katsayısı gibi bir şey uygundur; sadece genel sınıflandırma hatasıyla ilgileniyorsanız, geleneksel 0-1 kaybı .

Probleme modern bir yaklaşım Aktif Öğrenme kullanmaktır. Örneğin, Hospedales ve diğerleri (2011) "Nadir Sınıflar Bulmak: Üretken ve Ayrımcı Modellerle Aktif Öğrenme, IEEE'nin Bilgi ve Veri Mühendisliği İşlemleri, (TKDE 2011) .


Dengeli bir önlem alınması durumunda Metthews'ın ilginç bir ölçüsü. Ancak, maliyet işlevinde herhangi bir örnekleme veya değişiklik yapmadan önce herhangi bir kaydı silmek istemediğimiz göz önüne alındığında, nadir sınıf örnekleri ekleyerek veri kümesini yeniden dengeler misiniz? Bence cevap HAYIR olabilir. Çünkü nadir sınıf örneklerini bulduğunuz sürece başka örnekler de bulabilirsiniz. Bu nedenle, daha dengeli bir ölçü veya daha nadir bir sınıf performans ölçümü (örneğin F-ölçümü) elde etmek için sadece veri toplama aşamasından sonra bir teknik (örnekleme veya maliyet modu gibi) gerçekleştiririm. Katılıyor musun?
Simone

Kabul edildiğinde, bunun gibi işlemler veri toplama aşamasından sonra yapılmalıdır.
tdc
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.