Lojistik regresyona uymadan önce standardizasyon gerekli midir?


39

Benim sorum şu ki, lojistik regresyona uymadan önce tüm değişkenlerin [0,1] arasında aynı ölçeğe sahip olduğundan emin olmak için veri setini standartlaştırmamız gerekiyor. Formül:

ximin(xi)max(xi)min(xi)

Veri setimin 2 değişkeni var, iki kanal için de aynı şeyi tarif ediyorlar, ama hacim farklı. İki mağazada yapılan müşteri ziyaretlerinin sayısının, burada bir müşterinin alım yapıp yapmadığını söyleyin. Çünkü bir müşteri, satın almadan önce ikinci mağazayı iki kez veya ilk mağazayı iki kez ziyaret edebilir. ancak ilk mağaza için yapılan toplam müşteri ziyareti sayısı, ikinci mağazadan 10 kat daha fazladır. Bu lojistik regresyona uyduğumda standardizasyon olmadan coef(store1)=37, coef(store2)=13; eğer verileri standartlaştırsam, o zaman coef(store1)=133, coef(store2)=11. Bunun gibi bir şey. Hangi yaklaşım daha anlamlı?

Ya bir karar ağacı modeli uyguluyorsam? Ağaç yapı modellerinin standardizasyona ihtiyacı olmadığını biliyorum çünkü modelin kendisi ayarlayacaktır. Ama hepinizi kontrol ediyorum.


10
Regresyonunuz düzenli olmadıkça standartlaştırmanız gerekmez. Ancak, bazen yorumlanabilirliğe yardımcı olur ve nadiren acıtır.
alex

3
\ Frac {x_i- \ bar {x}} {sd (x)} ' ı standartlaştırmanın normal yolu değil xix¯sd(x)mi?
Peter Flom - Eski Monica

1
@Peter, daha önce düşündüğüm şeydi, ama ben bir yazı buldum benetzkorn.com/2011/11/data-normalization-and-standardization/… >, normalleşme ve standardizasyon farklı şeyler gibi görünüyor. Biri ortalama 0 varyansı 1 yapmak, diğeri her değişkeni yeniden ölçeklendirmektir. Burada kafam karıştı. Cevabın için teşekkürler.
user1946504

7
Bana göre standardizasyon yorumlamayı çok daha zorlaştırıyor.
Frank Harrell

2
@Alex’in söylediklerini netleştirmek için, verilerinizi ölçeklendirmek, optimum düzenleme faktörünün Cdeğiştiği anlamına gelir . Bu yüzden Cverileri standartlaştırdıktan sonra seçim yapmanız gerekir .
akxlr

Yanıtlar:


37

Lojistik regresyon için standardizasyon gerekli değildir. Özellikleri standartlaştırmanın temel amacı, optimizasyon için kullanılan tekniğin yakınsamasına yardımcı olmaktır. Örneğin, olabilirliği en üst düzeye çıkarmak için Newton-Raphson kullanıyorsanız, özellikleri standartlaştırmak yakınsaklığı hızlandırır. Aksi takdirde, lojistik regresyonunuzu özelliklerde herhangi bir standardizasyon işlemi olmadan çalıştırabilirsiniz.


Cevabın için teşekkürler. Bu standardizasyonun tercih edildiği anlamına mı geliyor? Modelin kesinlikle birleşmesini istediğimiz ve milyonlarca değişkenimiz olduğunda, değişkenleri birer birer ayarlamaktan ziyade, modelleme hattında standardizasyon mantığını uygulamak daha kolaydır. Anladım mı?
user1946504

4
Bu analizin amacına bağlı. Modern yazılım standardizasyon olmadan oldukça aşırı verileri işleyebilir. Her değişken için (yıl, euro, kg, vb.) Doğal bir ünite varsa, standardize etmekte tereddüt etmem gerekir, ancak daha mantıklı olduğunda üniteyi kg'dan örneğin ton veya gram'a değiştirmekte özgürsem.
Maarten Buis,

19

@ Her haklı, lojistik regresyon için verilerinizi normalleştirmek gerekmez. (Fazla genel bilgi için, bu CV iplik okumaya yardımcı olabilir: Eğer & verilerinizi merkez alacaktır zaman standardize ne zaman? ; Ayrıca dönüşüm daha yaygın 'normalizasyon' denir belirtebilir, bkz: Bir doğrulama nasıl Dağılım normalleştirilmiş mi? ) Bana sorudaki diğer bazı noktaları ele alayım.

Lojistik regresyonda katsayılarınızın, öngörücü değişkeninizdeki bir birim değişimin, 'başarı'nın kütük oranları üzerindeki etkisini gösterdiğine dikkat etmek önemlidir. Bir değişkeni dönüştürmenin etkisi (örneğin standardizasyon veya normalizasyon gibi) modelimiz bağlamında 'birim' dediğimiz şeyi değiştirmektir. Ham verileriniz, orijinal ölçümdeki bazı birimler arasında değişmiştir. Normalleştirdikten sonra, verileriniz ile . Yani, bir birimin değişmesi şimdi en düşük değerli gözlemden en yüksek değerli gözleme geçmek demektir. Kayıtların başarı oranındaki artış miktarı değişmedi. Bu gerçeklerden, ilk değişkeninizin ( )x01store1133/373.6orijinal birimler ve ikinci değişkeniniz ( store2) yalnızca orijinal birim kapsadı . 11/130.85


17

LASSO ile lojistik regresyon veya ridge regresyonu kullanıyorsanız (Weka Logistic sınıfı gibi) yapmanız gerekir. As HASTIE, Tibshirani ve Friedman çıkış noktaları (pdf veya kitabın sayfa 63 de sayfa 82):

Çıkıntı çözümleri girdilerin ölçeklendirilmesi altında eşdeğer değildir ve bu yüzden biri normal olarak çözülmeden önce girdileri standart hale getirir.

Ayrıca bu konu var.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.