Lojistik regresyon yaparken dengesiz bir örnek önemlidir?


81

Tamam, bu yüzden 20: 1 kuralını göz önünde bulundurarak yeterince iyi bir örneğe sahip olduğumu düşünüyorum: toplam 7 aday belirleyici değişkeni için oldukça büyük bir örnek (N = 374).

Benim sorunum şudur: Ne kullanırsam tahmin değişkenleri kümesi ne olursa olsun, sınıflandırmalar% 100 özgüllük ve% 0 duyarlılıktan daha iyi olamaz. Bununla birlikte, tatmin edici olmayan, aday tahmin belirleyici değişkenleri (sapma yapamadığım) bir dizi verilen göz önüne alındığında, bu mümkün olan en iyi sonuç olabilir.

Ancak, yardım edemedim ama daha iyisini yapabileceğimi düşündüm, bu yüzden bağımlı değişkenin kategorilerinin neredeyse 4: 1 oranında oldukça dengesiz olduğunu fark ettim. Daha dengeli bir alt örnekleme sınıflandırmaları iyileştirebilir mi?


5
Bunun nasıl olacağını hayal etmek zor. Belki de tahmin edilen olasılığı 0,5 olarak kesiyorsunuz? Öyleyse, kesmeyi değiştirmeyi deneyin.
Aniko

4
ROC eğrisinin altındaki alan 585'tir, oldukça zayıf bir sonuçtur. Bu, özgüllük / duyarlılık değişiminin değerinde olduğu bir kesim değeri olmadığı anlamına gelir. Kesim ile uğraşmak, sınıflandırmaları daha fazla geliştirmez çünkü duyarlılığı arttırdığı kadar spesifikliği kabaca azaltacaktır.
Michiel

3
Değişkenler katsayılarından herhangi biri önemli ölçüde farklı mı (beş standart hatadan daha fazla)? Sorununuz değilse Değişkenlerinizle ilgili açıklayıcı bir gücünüz olmadığı için olabilir. 0
olasılık

2
Ayrıca, iyi tahminler yapmak için örnek büyüklüğünüzün, gerçek tahminci değişkenindeki örnekleme sayısının değil, tahmin değişkenindeki benzersiz kalıpların sayısı olduğunu unutmayın. Örneğin, iki seviyeli tek bir kategorik belirleyici değişkenine sahip bir model, örnekte milyonlarca insan olsa bile, iki parametreli (her kategori için bir tane) bir lojistik regresyon modeline uyabilir.
olasılık

Yanıtlar:


75

Eğitim Setinde Bakiye

Lojistik regresyon modelleri için dengesiz eğitim verileri sadece model müdahalesinin tahminini etkiler (bu elbette ki tahminlerinizi tehlikeye sokan tüm tahmin edilen olasılıkları daraltır). Neyse ki engelleme düzeltmesi basit: 0'lı ve 1'lerin gerçek oranını bilmeniz veya tahmin edebilmeniz ve eğitim setindeki oranları bilmeniz şartıyla, engellemeye nadir bir olay düzeltmesi uygulayabilirsiniz. Detaylar King ve Zeng'de (2001) [ PDF ].

Bu 'nadir olay düzeltmeleri', çoğunlukla epidemiyolojide kullanılan, sabit, genellikle dengeli 0 vaka ve 1 vaka seçerek vaka seçen vakaları seçen vaka kontrolü araştırma tasarımları için tasarlandı ve daha sonra ortaya çıkan örnek seçim yanlılığının düzeltilmesi gerekir. Gerçekten de, sınıflandırıcınızı aynı şekilde eğitebilirsiniz. Dengeli bir örnek seçin ve daha sonra, daha nadir sınıflar hakkında rastgele bir örneğin size söyleyebileceğinden daha fazla şey öğrenmek için bağımlı değişkende seçmiş olduğunuz gerçeğini hesaba katarak müdahaleyi düzeltin.

Tahmin yapma

İlgili ancak farklı bir konuda: Tahminlerde bulunmak için akıllıca eşik yapmanız gerektiğini unutmayın. Model olasılığı 0,5'ten büyük olduğunda 1'i tahmin etmek her zaman en iyisi değildir. Başka bir eşik daha iyi olabilir. Bu amaçla, sınıflayıcınızın Alıcı Çalışma Karakteristikleri (ROC) eğrilerine bakmalısınız, sadece varsayılan bir olasılık eşiğiyle olan öngörülen başarısı değil.


8
Operasyonel sınıf frekanslarını bilmiyorsanız, test / operasyonel numunelerin etiketlerini bilmeden EM ile tahmin edilebilir. Detaylar Saerens ve ark. "Bir Sınıflandırıcının Çıktılarını Yeni Bir Priori Olasılıklara Ayarlama: Basit Bir Prosedür", Sinirsel Hesaplama, cilt. 14, hayır. 1, sayfa 21-41, 2002 ( dx.doi.org/10.1162/089976602753284446 ). Bunu birkaç kez kullandım ve ne kadar iyi çalıştığından etkilendim. Bununla birlikte, teorik düzeltmenin normalde optimal olmadığını ve örneğin çapraz doğrulama yoluyla ayarlamanın genellikle daha iyi olduğunu unutmayın.
Dikran Marsupial

Evet, ROC eğrisindeki sonuçların da ikna edici olmadığını söylemeliydim. Bu durumda, tatmin edici sonuçlar veren bir eşik olmadığını düşünüyorum.
Michiel

Tahminlerde bulunma ile ilgili: 0 ve 1 sonuç için yaptığım eğitimin boyutunu nasıl dikkate alabilirim? Gerçekten de 0,5 eşiğini kullanmak istemiyorum, ancak bunu R'de nasıl yapacağımdan emin değilim.
Perlnika

1
@Perlnika Detaylar makale bağlantısındadır (en basit durumda tahmin edilen müdahaleyi değiştirirsiniz). 0,5'de değil eşik değerine geçmek için sadece öngörülen olasılıkları kullanın predictve her birinin yeni eşikten büyük olup olmadığını hesaplayın.
conjugateprior

1
@SassaNF Bir engelleme değişiminin eşik değişimi ile dengelenebileceği doğrudur. Ancak, olasılık tahmininizi (çıkarım) hataların göreceli olarak pahalı olmasıyla (kayıp fonksiyonu) birleştirir, ikincisi ise uygulamalarda farklılık gösterebilir. Örneğin, bir 0 için 0 değerini bir C ile eşleştirmenin maliyeti C çarpımı olduğunda, 1 için 0 değerini eşleştirmenin maliyeti, o zaman tahmini olasılığınızı 1 / (1 + C) olarak eşleştirmek istersiniz.
conjugateprior

41

Sorun, sınıfların kendi başına dengesiz olmaması değil, azınlık sınıfına ait dağılımını yeterince temsil etmek için yeterli örüntülerin bulunmaması olabilir. Bu, sadece lojistik regresyon değil, herhangi bir sınıflandırıcı için problemin ortaya çıkabileceği anlamına gelir (sentetik bir probleminiz olsa ve gerçek modele sahip olduğunuzu bilseniz bile). İşin iyi yanı, daha fazla veri olduğunda, "sınıf dengesizliği" sorununun genellikle ortadan kalkmasıdır. Hangisini söyledikten sonra, 4: 1 o kadar dengesiz değildir.

Dengeli bir veri kümesi kullanıyorsanız, önemli olan, modelin çıktısının artık bir-posteriori olasılığının bir tahmini olduğunu, sınıfların eşit derecede yaygın olduğunu varsaymak olduğunu ve bu yüzden de modeli çok fazla önyargılı bırakabileceğinizi hatırlamaktır. Her sınıfa ait modelleri farklı şekilde ağırlıklandırırdım ve doğru operasyonel sınıf frekanslarına sahip bir test setindeki çapraz entropiyi en aza indirerek ağırlıkları seçerdim.


6
+1If you use a balanced dataset, the important thing is to remember that the output of the model is now an estimate of the a-posteriori probability
Zhubarb

2

İki örneğin altında yatan dağılımları düşünün. Her iki alt popülasyonu daha küçük örneklemde büyük miktarda önyargı olmadan ölçmek için yeterli örneğiniz var mı?

Daha uzun bir açıklama için buraya bakınız.

https://statisticalhorizons.com/logistic-regression-for-rare-events


5
Bu soruya cevap gibi görünmüyor.
Michael Chernick

Çünkü kesin bir cevap yok! Bu, onu nasıl uyguladığınız ve tahmin sürecine izin vermek istediği önyargı miktarı ile ilgilidir.
Paul Tulloch

1
Bence bu harika bir cevap. Anladığım kadarıyla, dengesizliği düzeltmeye yönelik tüm girişimler, deneyde yakalanmayan bazı dış bilgilere dayanıyor. Özellikle altta yatan dağılımın bilinmesi düzeltmelere yardımcı olacaktır.
user1700890
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.