Sınıf dengesizliği altında Precision-Recall eğrileri için optimizasyon


30

Birkaç belirleyiciye sahip olduğum (biri en bilgilendirici olan) bir sınıflandırma görevim var ve sınıflandırıcımı oluşturmak için MARS modelini kullanıyorum (herhangi bir basit modelle ilgileniyorum ve açıklama amacıyla glms kullanmak çok iyi). Şimdi eğitim verilerinde çok büyük bir sınıf dengesizliği var (her pozitif örnek için yaklaşık 2700 negatif örnek). Bilgi Edinme görevlerine benzer şekilde, en üst sıradaki pozitif test örneklerini tahmin etmekten endişe duyuyorum. Bu nedenle, Hassas Geri Çağırma eğrilerindeki performans benim için önemlidir.

Her şeyden önce, sadece eğitim dengesindeki modeli, sınıftaki dengesizliği olduğu gibi korudum. Eğitimli modelimi kırmızı, en önemlisi de mavi olanı görselleştiriyorum.

Dengesiz veriler hakkında eğitim, dengesiz veriler hakkında değerlendirme :

Dengesiz eğitim için PR Dengesiz eğitim için ROC

Sınıf dengesizliğinin modeli attığını düşünerek, en üst sıradaki pozitif örnekleri öğrenmek tüm veri setinin küçük bir parçası olduğundan, dengeli bir eğitim veri seti elde etmek için pozitif eğitim noktalarından örnek aldım. Performansı dengeli eğitim setinde gördüğümde, iyi performans elde ediyorum. Hem PR hem de ROC eğrilerinde, eğitimli modelim girdilerden daha iyi durumda.

(Örneklenmiş) dengeli veriler konusunda eğitim, (örneklenmiş) dengeli veriler hakkında değerlendirme:

Dengeli eğitim için PR, dengeli veri setinde görselleştirilmiş Dengeli veri seti için görselleştirilmiş, dengeli eğitim için ROC

Ancak, bu modeli dengeli veriler üzerinde eğitilmiş kullanırsam, orijinal, dengesiz eğitim setini tahmin etmek için PR eğrisinde hala kötü performans elde ederim.

Dengelenmiş (dengeli örneklenmiş) veri eğitimi, orijinal dengesiz veri değerlendirmesi:

Orijinal, dengesiz veri setinde görselleştirilmiş, dengeli eğitim için PR Orijinal, dengesiz veri setinde görselleştirilmiş, dengeli eğitim için ROC

Yani benim sorularım:

  1. PR eğrisinin görselleştirilmesinin nedeni eğitimli modelimin (kırmızı) düşük performans gösterdiğini ve ROC eğrisinin sınıf dengesizliği nedeniyle iyileştirmeler gösterdiğini mi gösteriyor?
  2. Örnekleme / örnekleme / örnekleme yaklaşımları, eğitimi yüksek hassasiyet / düşük geri çağırma bölgesine odaklanmaya zorlamak için bunu çözebilir mi?
  3. Eğitimi yüksek hassasiyet / düşük geri çağırma bölgesine odaklamanın başka bir yolu var mı?

Sorunuzu, eğitim setinde hangi önlemlerin hesaplandığını ve hangi verilerin tutulduğunu netleştirmek için düzenleyebilir misiniz?
Jack Tanner,

@ JackTanner, her şey şimdilik eğitim setinde hesaplanmaktadır. Modelde çok fazla parametre bulunmadığından ve eğitim setindeki örnek sayısı çok fazla olduğundan, fazla takma konusunda endişelenmiyorum. Ayrıca, test setinde beklemeden önce eğitim setinde iyi bir performans gösterdiğimden emin olmak istiyorum.
Bant Genişliği

Farklı geri çağırma seviyelerinde kesinliği değerlendirmek için öğrenme algoritmanızda hangi düğmeyi kontrol ediyorsunuz? Özellik setinizi, örneğin özellik kombinasyonları ve dönüşümleriyle genişletmeyi denediniz mi?
Jack Tanner,

@ JackTanner, Sahip olduğum model (logit işlevli MARS), lojistik regresyona benzer şekilde 0 ila 1 aralığında çıktılar veriyor. Temelde aynı, ancak birkaç özellik daha var. Farklı geri çağırmalarda hassasiyet elde etmek için eşikleri farklı noktalara ayarladım. Sıralı bir listeden PR veya ROC'yi hesaplamak için standart yolu kullanıyorum.
Bant Genişliği

Yanıtlar:


15
  1. ROC eğrisi sınıftaki dengesizlikteki değişikliklere karşı duyarsızdır; bakınız Fawcett (2004) "ROC Graphs: Araştırmacılar için Notlar ve Pratik Hususlar".
  2. Düşük frekans sınıfının yukarı örneklenmesi makul bir yaklaşımdır.
  3. Sınıf dengesizliği ile baş etmenin birçok yolu vardır. Güçlendirme ve torbalama akla gelen iki tekniktir. Bu, ilgili yeni bir çalışma gibi gözüküyor: Yükseltme ve Torbalama Tekniklerinin Gürültülü ve Dengesiz Verilerle Karşılaştırılması

PS Düzgün problem; Nasıl sonuçlandığını bilmek isterim.



1

Son iki deneyin aslında ALMOST SAME veri setinde SAME modelini kullandığına dikkat çekmek istedim. Performanstaki fark, model farkı değildir, validasyon veri setinin farklı dağılımları ve kullanılan belirli METRICS'in özellikleriyle açıklanır - hassasiyet ve hatırlama, bu dağılıma büyük ölçüde bağlıdır. Bu noktayı biraz daha detaylandırmak için, ilk doğrulama veri kümenizden X farklı girdiler aldıysanız ve azınlık sınıfını, yükseltilmiş veri kümesi için çoğalttıysanız, modeliniz, hem ölçeklendirilmiş hem de dengelenmemiş, doğru veya yanlış olan bu X girişleri için aynı öngörüleri yapacaktır. doğrulama veri kümeleri. Tek fark, her yanlış pozitif için, başlangıçtaki veri kümesinde daha az gerçek pozitif (bu nedenle daha düşük hassasiyet) ve dengeli veri setinde daha doğru pozitiflerin olması (sadece genel olarak veri kümesinde daha olumlu örnekler olması nedeniyle) olmasıdır. . Bu nedenle Hassasiyet ve Geri Çağırma'nın eğriltmeye karşı duyarlı olduğu söylenir. Diğer yandan, denemenizin de gösterdiği gibi, ROC değişmez. Bu, tanımına da bakarak gözlemlenebilir. Bu yüzden ROC'nin yamulmaya duyarlı olmadığı söyleniyor.

Henüz 2 ve 3. puanlar için iyi cevaplar alamıyorum :)


0

Örneklenen pozitif örneklerin "orijinal set" ile aynı "dağılıma" sahip olduğunu varsayalım. Pozitif örneklerin sayısı arttıkça, birkaç değişiklik olur

1) TruePositives (TP) sayısı "tüm eşikler" için artar ve sonuç olarak, tüm eşikler için TP / (TP + FP) ve TP / (TP + FN) oranları artar. Böylece PRC altındaki alan artmaktadır.

2) "aptal" modelin de denilen mutluluğu olan beklenen hassasiyet, ~ 1 / 2700'den (orijinal sette) ~ 1 / 2'ye ("ideal" denge durumunda) yükselir. Modelinizin "aptal" modelden daha iyi performans gösterdiğini varsayarsak, eğri altındaki alanın "orijinal sette" 0.00037'den ve ideal olarak dengelenmiş sette 0.5'ten daha fazla olacağı anlamına gelir.

3) Modelin yükseltilmiş veri setinde eğitimi verilirken, bazı modeller pozitif numuneleri "overfit" edebilir.

ROC eğrileri ile ilgili olarak, ROC eğrilerinin, sınıf dağılımındaki değişikliklerden çok az etki gösterdiği bilinmektedir (yükseltme, FPR üzerinde çok küçük bir etkiye sahiptir, TPR üzerinde bir etki göreceksiniz).

Yüksek hassasiyetli / düşük geri çağırma bölgesinde odaklanma konusunda, Yanlış Pozitiflerin Yanlış Negatiflerden daha fazla cezalandırıldığı bir maliyet fonksiyonuna göre optimize edebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.