Lojistik Regresyonda Değişkenlerin WoE (Kanıt Ağırlığı) ile Değiştirilmesi


14

Bu, bazı meslektaşlarım tarafından takip edilen bir uygulama veya yöntemle ilgili bir sorudur. Lojistik regresyon modeli yaparken, insanların kategorik değişkenleri (veya ikili değişkenleri) kendi Kanıt Ağırlıkları (WoE) ile değiştirdiklerini gördüm. Bu, regresör ve bağımlı değişken arasında monotonik bir ilişki kurmak için yapılır . Şimdi anladığım kadarıyla, model yapıldıktan sonra, denklemdeki değişkenler veri kümesindeki değişkenler DEĞİLDİR. Bunun yerine, denklemdeki değişkenler artık bağımlı değişkeni ayırmada değişkenlerin önemi veya ağırlığıdır !

Sorum şu: şimdi modeli veya model katsayılarını nasıl yorumlayacağız? Örneğin aşağıdaki denklem için:

günlük(p1-p)=β0+β1x1

, değişkenindeki 1 birim artış için tek oranındaki göreli artış olduğunu söyleyebiliriz .tecrübe(β1) x1

Ancak değişken WoE ile değiştirilirse, yorum şu şekilde değiştirilir: değişkenin ÖNEMİ / AĞIRLIĞINDA 1 birim artış için tek orandaki nispi artış

Bu uygulamayı internette gördüm, ama hiçbir yerde bu sorunun cevabını bulamadım. Bu topluluğun kendisinden gelen bu bağlantı, birisinin yazdığı benzer bir sorgu ile ilgilidir:

WoE, lojistik regresyonda bağımlı değişken olan olasılık oranının doğal logaritması ile doğrusal bir ilişki göstermektedir. Bu nedenle, değişkenin gerçek değerleri yerine WoE kullandığımızda lojistik regresyonda model yanlış tanımlanması sorunu ortaya çıkmaz.

Ama hala açıklamayı alamıyorum. Lütfen neyi kaçırdığımı anlamama yardımcı olun.


x 1tecrübe(β1) / a 1 birim artış ağırlık ilgili kazanma oranı değil, " görece bir artış / a 1 birim artış ağırlık ilgili kazanma oranında ". x1x1
gung - Monica'yı eski

Hayır! Açıkça kurtulmak için sonra LHS oranını β0
almalısınız

Oranlar p / (1-p) 'dir, bu nedenle p (x) = exp (𝛽0 + 𝛽1x) ve p (x + 1) = exp (𝛽0 + 𝛽1x + 𝛽1) p (x + 1) = exp (𝛽0 + 𝛽1x) exp (𝛽1) ve nihayet oranlar p (x + 1) / p (x) = exp (𝛽1) stats.stackexchange.com/users/7290/gung
hwrd

Yanıtlar:


12

WoE yöntemi iki adımdan oluşur:

1 - (sürekli) bir değişkeni birkaç kategoriye ayırmak veya (ayrık) bir değişkeni birkaç kategoriye ayırmak (ve her iki durumda da bir kategorideki tüm gözlemlerin bağımlı değişken üzerinde "aynı" etkiye sahip olduğunu varsayıyorsunuz)
2 - WoE'yi hesaplamak için Her kategori için değer (daha sonra orijinal x değerlerinin yerine WoE değerleri gelir)

WoE dönüşümünün (en azından) üç olumlu etkisi vardır:
1) Bağımsız bir değişkeni bağımlı değişkenle monotonik ilişki kuracak şekilde dönüştürebilir. Aslında bundan daha fazlasını yapar - monotonik ilişkiyi güvence altına almak için herhangi bir sıralı ölçüye (örneğin 1,2,3,4 ...) "yeniden kodlamak" yeterli olacaktır, ancak WoE dönüşümü kategorileri "lojistik" "Lojistik regresyon için doğal olan ölçek
2) Çok fazla (seyrek nüfuslu) ayrık değere sahip değişkenler için bunlar kategorilere ayrılabilir (yoğun nüfuslu) ve WoE tüm kategori için bilgileri ifade etmek için kullanılabilir
3) Her kategorinin bağımlı değişken üzerindeki (tek değişkenli) etkisi, kategoriler ve değişkenler arasında basitçe karşılaştırılabilir, çünkü WoE standart değerdir (örneğin evli insanların WoE'sini manuel çalışanların WoE'siyle karşılaştırabilirsiniz)

Aynı zamanda (en azından) üç dezavantajı vardır:
1) Birkaç kategoriye
ayrılmasından dolayı bilgi kaybı (varyasyon) 2) "Tek değişkenli" bir ölçüdür, bu nedenle bağımsız değişkenler arasındaki korelasyonu dikkate almaz
3) değişkenlerin etkisini kategorilerin nasıl oluşturulduğuna göre manipüle eder (değiştirir)

Geleneksel olarak, regresyon betaları (x'in WoE ile değiştirildiği yerde) kendi başına yorumlanmaz, ancak bir "skor" elde etmek için WoE ile çarpılırlar (örneğin, değişken "medeni durum" için beta WoE ile çarpılabilir. evli insanların puanını görmek için "evli insanlar" grubu; değişken "meslek" için beta el işçilerinin puanını görmek için "el işçilerinin" WoE ile çarpılabilir.O zaman evli el işçilerinin puanıyla ilgileniyorsanız, bu iki puanı toplarsınız ve sonuç üzerindeki etkinin ne kadar olduğunu görürsünüz). Puan ne kadar yüksek olursa, 1'e eşit bir sonuç olasılığı da o kadar büyük olur.


1
(+1) Yanıtla tekdüze bir ilişki kurmak için bir yordayıcıyı yeniden kodlamak neden bir avantajdır?
Scortchi - Monica'yı eski durumuna döndürün

1
@Scortchi Bir örnek düşünebilirim - bağımsız değişken insanların boyu (cm cinsinden ölçülür), insanlar güzel kıyafetler için alışverişe gidiyorlar, bağımlı değişken ikili bir olay olurdu - uygun ve rahat kıyafetler alıp alamayacakları. Görünüşe göre çok küçük ve çok uzun boylu insanlar uygun kıyafetleri satın almakta zorlanırken, ortadaki insanlar bunu kolayca yapabilirler. Basit (etkileşimler olmadan ve dönüşümler olmadan) regresyon ile sadece uygun kıyafetleri satın alma olasılığının insanların yüksekliğiyle arttığını veya azaldığını
modelleyebilirsiniz

1
İnsanlar genellikle ampirik modellemede değil, öngörücülerin monotonik olmayan dönüşümlerini kullanmazlar. Etkileşimleri dahil etmek, diğer öngörücüler de dahil olmak üzere koşullu monotonik olmayan ilişkileri kaldırabilir veya getirebilir. Ancak polinom veya spline bazlı bir yordayıcıyı temsil etmek, onlara izin vermenin basit bir yoludur; & diğeri bunu hazırlıyor ve bundan böyle referans seviyesi kodlama kullanarak kategorik olarak ele alıyor. Sonuncusu, en azından, bu WoE dönüşümünden çok daha basittir; hiçbiri zarar ...
Scortchi - Eski Monica

1
... yanıt açısından bir yordayıcı tanımlamaktan kaynaklanan çıkarım ve yorumlanabilirlik; & hepsi, marjinal ilişki monotonik olsa bile (veya tersi) monotonik olmayan bir koşullu ilişkinin modellenmesine izin verir. Sanırım, WoE dönüşümünün bana bir problem arayışında bir çözüm gibi göründüğünü düşünüyorum. Daha yaygın olarak kullanılan yöntemlerden daha iyi tahminler ürettiği bir durum sınıfı var mı? - bu, burada yanıtladığınız sorudan farklı bir soru olsa da (belki stats.stackexchange.com/q/166816/17230 ).
Scortchi - Monica'yı eski durumuna döndürün

Zaten kategorik verileriniz varsa ne olur? "tekdüze bir ilişki kurmanın" tek avantajı nedir? WoE kritik bileşeni gruplama sürecinde aslında gibi görünüyor
information_interchange

7

Lojistik regresyonda WOE kullanmanın mantığı, bazen Yarı Naif Bayes Sınıflandırıcısı (SNBC) olarak adlandırılan şeyi üretmektir. Bu blog yazısının başlangıcında çok iyi açıklanıyor : http://multithreaded.stitchfix.com/blog/2015/08/13/weight-of-evidence/

Modeldeki beta parametreleri, diğer öngörücülerin varlığından dolayı her naif etkinin doğrusal kanıtıdır (diğer bir deyişle kanıt ağırlığı) ve bunlar, belirli öngörücülerin varlığından dolayı log oranlarındaki doğrusal değişiklik olarak yorumlanabilir. diğer yordayıcılar.


1

Kanıt Ağırlığı (WoE) değişken dönüşüm ve seçim yapmak için güçlü bir tekniktir. İyi ve kötü müşterilerin ayrılmasını ölçmek için kredi puanlamasında yaygın olarak kullanılır. (Değişkenler). Avantajları :: - Eksik değerleri yönetir Dönüşümün logrithmic değerine dayalı olarak aykırı değerlerin üstesinden gelir. Uygun binning tekniği kullanılarak kukla değişkenlere gerek yoktur, bağımsız ve bağımlı olmak üzere monotonik ilişki kurabilir.

mono_bin () = sayısal değişkenler için kullanılır. char_bin () = karakter değişkenleri için kullanılır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.