modelinizi daha iyi hale getirirse (görülmeyen verilerde) sınıf dengesizliği ile uğraşmanız gerekir . "Daha iyi", kendinizi tanımlamanız gereken bir şeydir. Doğruluk olabilir, bir maliyet olabilir, gerçek pozitif oran vb.
Sınıf dengesizliği hakkında konuşurken kavraması gereken ince bir nüans var. Yani verileriniz dengesizdir çünkü:
- verilerin dağılımı dengesizdir
Bazı durumlarda, bir sınıf diğerinden çok daha fazla meydana gelir. Ve sorun deđil. Bu durumda, bazı hataların diğerlerinden daha maliyetli olup olmadığına bakmanız gerekir. Bu, hastalarda ölümcül hastalıkları tespit etmenin, birinin terörist olup olmadığını anlamanın tipik bir örneğidir. Bu kısa cevaba geri döner. Bazı hatalar diğerlerinden daha pahalıysa, daha yüksek bir maliyet vererek bunları "cezalandırmak" istersiniz. Bu nedenle, daha iyi bir modelin maliyeti daha düşük olacaktır. Tüm hatalar o kadar kötü ise, o zaman maliyet duyarlı modelleri kullanmanızın gerçek bir nedeni yoktur.
Maliyete duyarlı modellerin kullanılmasının dengesiz veri kümelerine özgü olmadığını da belirtmek önemlidir. Verileriniz de mükemmel bir şekilde dengelenirse bu modelleri kullanabilirsiniz.
- verilerin gerçek dağılımını temsil etmez
Verilerinizin gerçek dağılımını temsil etmediğinden bazen verileriniz "dengesizdir". Bu durumda, dikkatli olmalısınız, çünkü bir sınıfın "çok fazla" örneğine ve diğerinin "çok az" örneğine sahipsiniz ve bu nedenle, modelinizin bir sınıfta fazla / uygun olmadığından emin olmanız gerekir bu sınıfların.
Bu, maliyetleri kullanmaktan farklıdır, çünkü bir hatanın diğerinden daha kötü olması söz konusu olmayabilir. Olan şey, önyargılı olmanız ve görünmeyen verilerin eğitim aldığınız verilerle aynı dağılıma sahip olmaması durumunda modeliniz için yararlı olmayacağıdır.
Diyelim ki size eğitim verileri veriyorum ve amacınız kırmızı veya mavi bir şey olup olmadığını tahmin etmektir. Kırmızı için maviyi ya da mavi için kırmızıyı karıştırıp karıştırmamak fark etmez. Egzersiz verileriniz, gerçek hayatta yalnızca% 10'unun gerçekleştiği% 90 kırmızı örneklere sahiptir. Modelinizi daha iyi hale getirmek için bununla başa çıkmanız gerekir.