Lojistik regresyonda çarpık veri kümeleri için ağırlık ekleme


9

Giriş değişkenlerimi ikili çıkış değişkenlerine sığdırmak için standart bir lojistik regresyon sürümü kullanıyorum.

Ancak benim sorunumda, negatif çıktılar (0s) pozitif çıktılardan (1s) çok daha fazla. Oran 20: 1'dir. Bu yüzden bir sınıflandırıcıyı eğittiğimde, pozitif bir çıktı olasılığını güçlü bir şekilde öne süren özelliklerin bile karşılık gelen parametreleri için hala çok düşük (son derece negatif) değerlere sahip olduğu görülmektedir. Bana öyle geliyor ki parametreleri yönlerine çeken çok fazla olumsuz örnek var.

Bu yüzden, pozitif örnekler için ağırlık ekleyip ekleyemeyeceğimi merak ediyorum (1 yerine 20 kullanarak). Bunun hiç faydası var mı? Ve eğer öyleyse, ağırlıkları nasıl eklemeliyim (aşağıdaki denklemlerde).

Maliyet fonksiyonu aşağıdaki gibi görünür:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

Bu maliyet fonksiyonunun (wrt θ ) gradyanı :

grad=((h(xθ)y)X)

Burada m = test vakası sayısı, x = özellik matrisi, y = çıktı vektörü, h = sigmoid fonksiyon, θ = öğrenmeye çalıştığımız parametreler.

Sonunda mümkün olan en düşük bulmak için degrade inişini çalıştırıyorum . Uygulama düzgün çalışıyor gibi görünüyor.J


Merhaba, tarif ettiğin sorunun aynısı var. Verilerimde birçok örnek negatif ve çok az pozitif ve benim için olumlu olanı doğru bir şekilde sınıflandırmak daha önemlidir, bu bazı olumsuzlukları kaçırmamak anlamına gelse bile. Aynı Maliyet Fonksiyonu ve degrade denklemlerini kullandığım için, ben de aynı yöntemleri uyguluyorum. Şimdiye kadar, birkaç test yaptım ve aşağıdaki sonuçları elde ettim: - 7 parametre ile , Eğitim örnek boyutu: 225000 , Test örnek boyutu: 75000 Sonuçlar: % 92 doğruluk , pozitif vakalarda sadece% 11 w
Cartz

1
Yaptığınız şey bir kayıp fonksiyonunu maksimum olasılıkla karıştırmaktır. Ağırlıksız mle "doğru olanı" çıkarımsal bir perspektiften yapıyor ve sonucun her bir değişken spesifikasyon için ne kadar nadir olduğunu yansıtıyor. Ayrılığınız da olabilir - bu, eğitim verilerindeki yanıtı mükemmel bir şekilde tahmin edebilen belirli bir ortak değişkenler setinin ortaya çıkması olabilir - bu büyük negatif değerlere yol açacaktır.
probabilityislogic

2
Sınıflandırma iyi bir hedef değildir ve lojistik regresyonun geliştirilme şekli değildir. Burada listelenen tüm sorunlara neden olan sınıflandırma kavramıdır. Tahmin edilen olasılıklara ve doğru doğruluk puanlama kurallarına bağlı
kalın

1
@arahant Bu sadece kısmen doğrudur. Bir logit bağlantılı ikili lojistik regresyon, ortak değişkenlerinizdeki katsayıların MLE olması ve bu değişkenlerin sınıf 0 ile sınıf 0 olasılıkları üzerindeki etkisini yansıtması nedeniyle hala geçerlidir. Ancak, bir vaka kontrol tasarımında, kesişme sınıf 1'in sınıf 0'a oranını yansıtmak için her zaman sabittir ve sınıfları atamak için kesişme terimini ayarlamak, örneğin, bazı yanlış sınıflandırmaların maliyet işlevi veya başka bir işlemle uyumlu olarak mükemmel bir şekilde geçerlidir, çünkü bu katsayıları değiştirmez değişkenler.
Sycorax, Reinstate Monica'ya

1
Bir kesimin gerekli / istendiği / arzu edilebilir olduğu fikrini nereden buldu?
Frank Harrell

Yanıtlar:


8

Bu artık en fazla olabilir. bu tür aşırı dağılımı, yalnızca bir sınıflandırıcı kullanıyorsanız, yani doğru sınıflandırılan oranı doğru şekilde hesaplıyorsanız, uygunsuz bir puanlama kuralı verir. Standart maksimum olabilirlik olasılık tahminleri geçerlidir. Toplam "pozitif" sayısı aday değişken sayısının 15 katından azsa, cezalandırılmış maksimum olabilirlik tahmini sıralı olabilir.Y


Frank, "15 kere ..." detayını destekleyecek bir referans var mı? Diğer bazı araştırmacıların geliştirdiği ROC yöntemi yerine lojistik regresyonunu kullandığım bazı verilerde benzer dengesizlik var. Son zamanlarda küçük örnek önyargı rastladım ve benim kod / paket uydurma seçeneği olarak Firth önyargı azaltma için bir seçenek ekledi. Bunu bir dergi için yazarken, bunun gibi yan kurallarda atıfta bulunmak için bir şeyler yapmak yararlı olacaktır. Referansın RMS kitabınız olduğu gibi özür dilerim raflarımda oturuyor, ancak henüz oraya bakmadı.
Gavin Simpson

Küçük örneklem yanlılığı ve Firth cezalandırmasının değeri hakkında yazılar var. Bende kullanışlı değil. 15: 1 ile ilgili olarak bkz. Biostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/…
Frank Harrell

Teşekkürler Frank - 15: 1 sorunları en sonra ne oldu. Küçük örneklem yanlılığı ve Firth'ın yöntemi hakkında bazı yayınlarım var - ama sonunda elinizde bir şey varsa, bunun ne olduğunu bana bildirirseniz çok minnettar olurum.
Gavin Simpson

3
Başkası gibi yukarıdakilerin başkalarını yanlış okuması durumunda. Sorudaki 20: 1, negatifin olumlu gözlemlere oranıdır. Frank Harrell'in cevabındaki 15: 1 başka bir şey: olumlu gözlemlerin aday bağımsız değişkenlere oranı.
Adam Bailey

Aşırı bir dağılım, özellikle kategorik öngörücüleriniz varsa, yarı-tam ayrılma şansını artırarak bir sorun yaratır. Cezalandırma burada da yardımcı olur.
probabilityislogic

3

Bu gibi durumlarda, bu asimetriyi yakalayabilen lojistik bağlantı yerine esnek bir bağlantı kullanmak genellikle daha iyidir. Örneğin, eğri normal, GEV , sinh-arcsinh ve içindeki referanslar. Başka birçok var ama 2'den fazla bağlantı gönderemiyorum.


Diğer link fonksiyonları için daha iyi bir açıklama sağlayabilir misiniz?
DW
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.