Lojistik regresyonda kategorik belirleyicilerin WOE dönüşümü neden yapılmalı?


10

Kategorik değişkenlerin kanıt ağırlığı (WOE) dönüşümü ne zaman yararlıdır?

Örnek, WOE dönüşümünde görülebilir

(Yani bir yanıt için , ve bir kategorik prediktörü k kategorileri ve y J üzerinden başarıları n j olan çalışmalarda j Bu belirleyicisi kategorisi inci için WOE j inci kategori olarak tanımlanmaktadırykyjnjjj

günlükyjΣjkyjΣjk(nj-yj)nj-yj

& dönüşüm, kategorik öngörücünün her bir kategorisini yeni bir sürekli öngörücü oluşturmak için WOE ile kodlamaktan ibarettir.)

WOE dönüşümünün lojistik regresyona neden yardımcı olduğunu öğrenmek istiyorum. Bunun arkasındaki teori nedir?

Yanıtlar:


6

Bağlantı verdiğiniz örnekte, kategorik öngörücü, her düzey için o düzeydeki yanıtın gözlenen günlük oranlarına (artı sabit) eşit bir değer alan tek bir sürekli değişken ile temsil edilir :

günlükyjnj-yj+günlükΣjk(nj-yj)Σjkyj

Bu gizleme, aklıma gelen hiçbir amaca hizmet etmiyor: Her zamanki kukla kodlamayı kullandığınız gibi aynı öngörülen yanıtı alacaksınız; ancak özgürlük dereceleri yanlıştır ve model hakkında bazı yararlı çıkarım biçimlerini geçersiz kılar.

Birden fazla regresyonda, dönüştürülecek birkaç kategorik öngörücüyle, marjinal log olasılıklarını kullanarak her biri için WOE hesaplarsınız. Bu, öngörülen yanıtları değiştirecektir; ancak karıştırıcılık dikkate alınmadığı için - koşullu günlük olasılıkları marjinal günlük oranlarının doğrusal bir işlevi değildir - bunun bir gelişme olduğunu varsaymak için hiçbir neden göremiyorum ve çıkarımsal sorunlar devam ediyor.


WOE ile özgürlük derecelerinin neden yanlış olduğunu açıklayabilir misiniz? Bu sadece bir dönüşüm değil mi? Ayrıca birkaç kategorik değişkenimiz olsaydı ve her biri için birer birer WOE varsa? Deneyimlerime göre, birçok kategorik değişkeniniz olduğunda, farklı değişkenler arasındaki bazı kovalar çok fazla örtüşüyor ve önemsiz bazı katsayıları görmeye başlıyorsunuz. Ve ayrıca birkaç katsayı taşımanız gerekir.
adam

1
(1) Yordayıcıların yanıtla ilişkisini değerlendirmeye dayanan bir dönüşüm - gerilemeye bırakılması gereken bir şey. Örneğin, olabilirlik oranı test istatistiği, bir dönüşümün önceden belirtildiği zamanki dağılımı ile aynı olmayacaktır. (2) Güzel nokta! - WOE'ler üzerindeki çoklu regresyon, kukla değişkenlerle aynı olmayacaktır (modeller doygun olmadıkça). (3) Ne olmuş yani? (4) Katsayılar WOE'lerden daha ağır değildir.
Scortchi - Monica'yı eski durumuna döndürün

Sanırım WoE, hesaplamanın bugünden daha fazla bir problemin olduğu zamanlardan artık. Belki de, ÇOK seviyeli kategorik öngörücülerle, sayısal bir değişkene dönüştürmek parlak bir fikirdi!
kjetil b halvorsen

1

Kanıt ağırlığı (WoE) kullanarak kaba sınıflandırma aşağıdaki avantaja sahiptir - WoE, lojistik regresyonda bağımlı değişken olan oran oranının doğal logaritması ile doğrusal bir ilişki gösterir.
Bu nedenle, değişkenin gerçek değerleri yerine WoE kullandığımızda lojistik regresyonda model yanlış tanımlanması sorunu ortaya çıkmaz.

ln(p/1-p)αβWÖE(Vbirr1)γWÖE(Vbirr2)ηWÖE(Vbirr3)

Kaynak: PPT'lerden birinde antrenörüm şirket eğitimi sırasında bana gösterdi.


2
"değişkenin gerçek değerleri yerine WoE kullandığımızda lojistik regresyonda model yanlış ifadesi ortaya çıkmaz". Bunu matematiksel olarak açıklayabilir / ispatlayabilir misiniz?
adam

Risk analizi geçmişinden değilim ama bu kitabın pg 131,132'si öyle görünüyor ki books.google.co.in/…
Srikanth Guhan

Ayrıca bu bağlantı aynı iddia ediyor ama hiçbir matematik açıklanmadı analyticbridge.com/forum/topics/…
Srikanth Guhan

1
Bağlantılar için teşekkürler, ancak WoE'nin orantılı olduğu marjinal log oranlarının, lojistik regresyonun kendisini ilgilendirdiği koşullu log olasılıkları ile doğrusal bir ilişkisi olduğu açık değildir. Diğer öngörücülerle karıştırmak, WoE sıralaması kategorilerinin farklı olmasına bile neden olabilir.
Scortchi - Monica'yı eski durumuna döndürün

1

WOE dönüşümleri, birleştirmeniz gereken sayısal ve kategorik verileriniz olduğunda ve bilgileri ayıklamak istediğiniz değerlerde eksik olduğunda yardımcı olur. Her şeyi WOE'ye dönüştürmek, birçok farklı veri türünü (eksik veriler bile) aynı günlük olasılık ölçeğinde "standartlaştırmaya" yardımcı olur. Bu blog gönderisi işleri oldukça iyi açıklıyor: http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Hikayenin kısa kısmı, WOE ile Lojistik Regresyon, sadece Yarı Naif Bayes Sınıflandırıcısı (SNBC) olarak adlandırılmalıdır. Algoritmayı anlamaya çalışıyorsanız, SNBC adı bana göre çok daha bilgilendiricidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.