Makine Öğrenmesinde dengesiz veriler ne zaman bir problemdir?


52

Lojistik regresyon , SVM , karar ağaçları , torbalama ve benzeri pek çok başka soru kullanırken dengesiz veriler hakkında çoktan sorularımız vardı , bu da onu çok popüler bir konu haline getirdi! Maalesef, soruların her biri algoritmaya özgü görünüyor ve dengesiz verilerle ilgilenmek için genel bir kılavuz bulamadım.

Dengesiz verilerle ilgilenen Marc Claesen tarafından verilen cevaplardan birinden alıntı

(...) büyük ölçüde öğrenme yöntemine bağlıdır. Çoğu genel amaçlı yaklaşım, bununla baş etmenin bir (veya birkaç) yoluna sahiptir.

Ancak dengesiz veriler hakkında tam olarak ne zaman endişelenmeliyiz? Hangi algoritmalar daha çok etkilenir ve hangileri ile başa çıkabilir? Verileri dengelemek için hangi algoritmalara ihtiyacımız var? Algoritmaların her birini tartışmanın bunun gibi bir soru-cevap sitesinde imkansız olacağının farkındayım, bunun ne zaman sorun olacağı konusunda genel bir rehber arıyorum.



@MatthewDrury teşekkürler, bu ilginç bir soru, ancak IMHO, farklı bir kapsamı var. İstediğim şey, bu gerçekten bir sorun olduğunda kurallar için. Şüphesiz yanıtlayan neden sorusuna cevap yol açar zaman soru, ama kesin bir cevap arıyorum zaman soruya.
Tim

9
Yeterince adil! Seninleyim. Bununla ilgili "literatür", bir problemin nasıl çözüleceği ile ilgili olarak, sizi çözülmesi gereken bir problem olduğu konusunda ikna etmeye zahmet etmeden, hatta bir problemin hangi durumlarda meydana gelip gelmediğini size söylemekten ziyade görünmektedir. Konunun benim için en sinir bozucu kısımlarından biri.
Matthew Drury

2
@MatthewDrury bu tam bir problem!
Tim

1
Bir toplam yöntem araştırması bir SE sorusu kapsamında değildir. Soruyu hassaslaştırmak ister misiniz?
AdamO

Yanıtlar:


28

Doğrudan bir cevap değil, ancak istatistiksel literatürde, dengesiz verilere karşı önyargının bazılarının tarihsel köklere sahip olduğuna dikkat çekmek önemlidir.

Birçok klasik model, özellikle deneysel tasarımla yakından ilgili olan ANOVA gibi istatistiksel yöntemlerin geliştirilmesi için geleneksel / orijinal bir motivasyon yöntemi olan, dengeli veri varsayımı altında düzgünce sadeleştirilir.

Fakat istatistiksel / olasılıksal aritmetik dengesiz verilerle oldukça çirkin, çok hızlı bir şekilde olur. Bilgisayarların yaygın olarak benimsenmesinden önce, elle yapılan hesaplamalar o kadar genişti ki, dengesiz veriler üzerinde tahmin yapmak neredeyse imkansızdı.

Tabii ki, bilgisayarlar temel olarak bunu bir sorun haline getirmiştir. Benzer şekilde, büyük veri kümeleri üzerindeki modelleri tahmin edebilir, yüksek boyutlu optimizasyon problemlerini çözebilir ve hepsi elli yıl önce olduğu gibi fonksiyonel olarak imkansız olan analitik olarak etkilenemeyen ortak olasılık dağılımlarından örnekler alabiliriz.

Bu eski bir problem ve akademisyenler problem üzerinde çalışmak için çok zaman harcadılar ... bu arada, birçok uygulamalı problem bu araştırmayı geride bıraktı / engelledi, fakat eski alışkanlıklar zor ölüyor ...

Eklemek için düzenleyin:

Dışarı çıkmadığımı ve sadece şunu söylediğimi farkettim: dengesiz veri kullanımıyla ilgili düşük düzeyde bir sorun yok. Tecrübelerime göre, "dengesiz veriden kaçınma" tavsiyesi ya algoritmaya özgü ya da kalıtımsal bilgeliktir. Genel olarak, dengesiz verilerin iyi tanımlanmış bir model için kavramsal bir sorun teşkil etmediğini AdamO ile katılıyorum.


4
Ben senin fikrini anlıyor gibiyim, öncüllerin onları destekleyen tartışmalardan yoksun. Önyargı ve makine öğrenmesini nasıl etkilediği konusunda bazı argümanlar ve / veya örnekler verebilir misiniz?
Tim

1
Ne söylemek çoğunlukla doğru olmakla birlikte, bu ise aynı zamanda Anova gibi yöntemler dengeli verilerle daha sağlamdır durum, nonnormality örneğin dengeli verilerle ilgili bir sorun nedeniyle azdır. Ama bütün bunların bu sorunun amacına dik olduğuna inanıyorum ...
kjetil b halvorsen

7
Ben gelmedi gerçekleştirmek ve sadece söyle: orada değil dengesiz verileri kullanarak düşük düzeyde sorun. Tecrübelerime göre, "dengesiz veriden kaçınma" tavsiyesi ya algoritmaya özgü ya da kalıtımsal bilgeliktir. Genel olarak, dengesiz verilerin iyi tanımlanmış bir model için kavramsal bir sorun teşkil etmediğini AdamO ile katılıyorum.
Henry

1
@ M.HenryL. bu yorumun eksiksiz olması için cevabına katmaya değer.
Tim

16

WLOG dengesizliğe odaklanarak, daha ayrıntılı bir "veri sparitesi" kavramı veya küçük hücre sayımı yerine tek bir faktörde odaklanabilirsiniz.

İstatistiksel analizlerde değil öğrenme odaklı, sık sık eğilimidir puanlarını kullanırken o benzer veya daha iyi güç sağladığı bulmak eşleşecek büyük gruba küçük bir grup. Bunun nedeni kısmen eşleşmenin, grup üyeliğinin belirleyicilerini “dengelemek” ve böylece kafa karıştırıcı etkilerini engellemek için ayarlamalar yapmak için benzer bir amaca hizmet etmesidir. Çok değişkenli bir analizde muhtemelen ayarlanacak karıştırıcı sayısının gerekçesi örneklem büyüklüğüne bağlıdır. Bazı kurallar, her 10 ila 20 gözlem için bir değişken olduğunu söyler. Dengesiz verilerde, doğal olarak verilerinizin yeterince büyük olduğuna inanırsınız, ancak daha nadir durumda olan az sayıda insanla: varyans enflasyonu gücü önemli ölçüde azaltır. Aslında, fazla ayar yaptınız.

Bu nedenle, en azından regresyonda (ama her koşulda şüpheleniyorum), dengesiz verilerle ilgili tek sorun, etkili bir şekilde küçük örneklem büyüklüğüne sahip olmanızdır . Herhangi bir yöntem daha nadir sınıftaki insan sayısına uygunsa, oran üyeliğinin dengesiz olması durumunda herhangi bir sorun olmamalıdır.


13

Dengesiz veriler yalnızca uygulamanıza bağlı olarak bir sorundur. Örneğin, verileriniz A'nın zamanın% 99.99'u olduğunu ve B zamanının% 0.01'i olduğunu gösterir ve algoritmanızın muhtemelen her zaman A olduğunu söyleyeceğiniz kesin bir sonuç tahmin etmeye çalışırsınız! Yöntemin% 99,99'dan daha iyi bir tahmin doğruluğu elde etmesi olası değildir. Bununla birlikte, birçok uygulamada sadece tahminin doğruluğu ile değil, B'nin bazen neden olduğu ile de ilgileniyoruz. Bu, dengesiz verilerin problem yarattığı yerdir. Çünkü yönteminizi% 99,99'dan daha iyi tahmin edebileceğine ikna etmek zordur. Yöntem doğru ama sorunuz için değil. Bu nedenle, dengesiz veriyi çözmek, temel olarak kasıtlı olarak, doğru sonuçlar yerine ilginç sonuçlar elde etmek için verilerinizi saptırıyor.

Genel olarak üç vaka vardır:

  1. tamamen doğru tahminle ilgileniyorsanız ve verilerinizin güven verici olduğunu düşünüyorsunuz. Bu durumda hiç düzeltmek zorunda değilsiniz,% 99,99 oranında doğru tahminlerin şerefine bask :).

  2. Tahminle ilgileniyorsunuz ama verileriniz adil bir örneklemden geliyor, ancak bir şekilde birçok gözlem kaybettiniz. Eğer gözlemleri tamamen rastgele bir şekilde kaybettiyseniz, hala iyisinizdir. Onları önyargılı bir şekilde kaybettiyseniz, ancak önyargılı olduğunu bilmiyorsanız, yeni verilere ihtiyacınız olacaktır. Ancak bu gözlemler sadece bir karakteristik temelde kaybedilirse. (örneğin, sonuçları A ve B olarak sıraladınız ancak başka bir şekilde değil, B'nin yarısını kaybettiniz) Ypu verilerinizi önyükleyebilir.

  3. Doğru küresel tahminle ilgilenmiyorsunuz, ancak sadece nadir bir durumda. Bu durumda, verileri önyükleyerek veya diğer davaların yol verilerini atmaya yetecek veriye sahipseniz, bu vakanın verilerini şişirebilirsiniz. Bunun verilerinizi ve sonuçlarınızı önyargılı hale getirdiğine ve bu nedenle şansın ve bu tür sonuçların yanlış olduğuna dikkat edin!

Genelde hedefin ne olduğuna bağlıdır. Bazı hedefler, diğerlerinin yapmadığı dengesiz verilerden muzdariptir. Tüm genel tahmin yöntemleri bundan muzdarip çünkü aksi takdirde genel olarak korkunç sonuçlar verecektir.


7
Modellerimizi olasılıksal olarak değerlendirdiğimizde bu hikaye nasıl değişiyor?
Matthew Drury

@MatthewDrury Orijinal modeldeki olasılıklar, durumlar 1 ve 3 için çoğunlukla doğrudur. Sorun, yalnızca çok büyük veri kümeleriyle B'nin A'dan doğru şekilde ayrılması ve B'nin olasılıkının yavaşça gerçek değerine yakınlaşmasıdır. Bunun istisnası, eğer B, A'dan çok net bir şekilde ayrılırsa veya A'dan tamamen rasgele ayrılırsa, olasılıkların hemen hemen hemen hemen hemen birleşeceği veya asla birleşmeyeceğidir.
zen

@zen Lojistik regresyonunun daha az savunmasız olduğunu kabul etmiyorum. Lojistik regresyon, veri dengesizliğine karşı oldukça hassastır, küçük örnekleme önyargısı yaratır ve log oranları, 2 faktörüne eğilim gösterir. Koşullu lojistik regresyon, aynı OR'ları önyargısız olarak tahmin etmenin bir alternatifidir.
AdamO

@AdamO Evet lojistik regresyon hala savunmasız. Ancak ağaçlar için küçük kasalar tamamen göz ardı edilebilir. ya sadece küçük örneklem büyüklüğü değildir. büyük n için bile ve örneğin, seçenekler arasında% 80 -% 20 dağılım,% 20 seçeneğinin kesriği bir miktar x değişkeni ile açıkça artarsa ​​bile,% 80 seçeneğini seçmeyi tercih edebilir. Yeni bir aşırı gözlem bulunursa veya herhangi bir uç nokta için dalların sayısı düşükse, ağaç% 80 seçeneğini öngörürken, lojistik regresyonun yapması daha düşük olacaktır. Koşullu lojistik regresyon konusunda haklısın
zen

2
@MatthewDrury Stephen Senn, sık sık okuduğum bir makalede bu konu hakkında mükemmel bir tartışma yaptı . Sezgisel olarak, abcd girişleri olan 2x2'lik bir tablonun oran oranı, ad / (bc) ile tahmin edilir ve varyans 1 / a + 1 / b + 1 / c + 1 / d'dir. Keyfi olarak birkaç vakayı (a ve c) örnekleyebilirsiniz ve oran oranı hala tarafsızdır, ancak varyans sonsuza kadar gider. Bu hassas bir konudur.
AdamO

8

İki sınıfımız olduğunu varsayalım:

  • A , nüfusun% 99,99'unu temsil ediyor
  • B , popülasyonun% 0.01'ini temsil eder

Nadir bir hastalık veya sahtekarlıktan etkilenen bireyler olabilen B sınıfı elementleri tanımlamakla ilgilendiğimizi varsayalım.

Sadece tahmin ederek A öğrenenler kayıp fonksiyonlarında yüksek puanlar alırlardı ve çok az yanlış sınıflandırılan elemanlar, iğnenin (bu durumda bir samanlıkta) sayısal olarak hareket etmeyebilirdi. Bu örnek, sınıf dengesizliği sorununu hafifletmek için "hileler" den birinin ardındaki sezgiyi getiriyor: maliyet işlevini değiştirmek.

Modeller sıfıra yakın hassasiyet ve bir özelliğe yakınlık gösterdiğinde, dengesiz verilerin bir sorun olduğunu hissediyorum. Bu makaledeki "Sorunu yok sayma" bölümündeki örneğe bakın .

Sorunların genellikle bir çözümü vardır. Yukarıda belirtilen numaraların yanı sıra, başka seçenekler de var . Bununla birlikte, bir bedeli var: model ve hesaplama karmaşıklığında bir artış.

Soru, hangi modellerin sıfıra yakın hassasiyete ve bir özelliğe yakınlığa yatkın olma ihtimalinin daha yüksek olduğunu soruyor. Bunun birkaç boyuta bağlı olduğunu hissediyorum:

  • Her zamanki gibi daha az kapasite.
  • Bazı maliyet fonksiyonları diğerlerinden daha fazla zorlanabilir: ortalama hata karesi (MSE) daha az maruz kalması, Huber - MSE yanlış sınıflandırılmış doğru daha sevimsiz olmalıdır B sınıfı elemanları.

1
Bu, (1) maksimize etmeye çalıştığımız KPI’nın doğruluk olduğunu ve (2) sınıflandırma modelinin değerlendirilmesi için uygun bir KPI olduğunu ima eder. Değil.
S. Kolassa - Monica'yı yeniden kurun

5

Bunu düşünürseniz: Tamamen ayrılabilir, yüksek oranda dengesiz bir veri setinde, neredeyse her algoritma hatasız olarak çalışacaktır.

Bu nedenle, verideki gürültü sorunu daha fazladır ve belirli bir algoritmaya daha az bağlıdır. Ve hangi algoritmanın belirli bir gürültü türünü en iyi şekilde telafi ettiğini bilmiyorsunuz.

Sonunda sadece farklı yöntemler denemek ve çapraz doğrulama ile karar vermeniz gerekir.


Bu yorumun biraz takdir edildiğini hissediyorum. Sadece birisini sınıf dengesizliğinin her zaman sorun olmadığına ikna etmek için biraz zaman harcıyorum .
RDK

Bu soruya cevap vermiyor. Dengesiz sınıflar "veride daha fazla gürültü sorunu" nasıldır ?
S. Kolassa - Monica'yı yeniden kurun

2
@StephanKolassa Bu bir cevap, çünkü dengesiz verilerin (doğrudan) bir sorun olmadığını söylüyor . Dolayısıyla "nasıl" olduğunu soramazsınız. "Veri analizindeki gürültü problemleriyle nasıl başa çıkılacağı" sorusu daha genel bir soru için, cevabı, bunun bireysel veri setlerine özgü olduğudur ve yapabileceğiniz tek şey doğrulama yapmak ve ne işe yaradığını denemek. Gerçekten biraz tartışma yapmak isterseniz, ele.uri.edu/faculty/he/PDFfiles/ImbalancedLearning.pdf ' nin fikirleri olduğuna inanıyorum . Fakat sonunda örnekleme / yeniden ağırlıklandırma / eşikleme yaparsınız ve bu veri setinde tam olarak ne olduğunu bilmek de önemli değildir.
Gerenuk
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.