Lojistik regresyon katsayılarının bir anlamı var mı?


14

Çeşitli özelliklerden ikili bir sınıflandırma sorunum var. (Düzenli) lojistik regresyon katsayılarının yorumlanabilir bir anlamı var mı?

Özelliklerin önceden normalleştirildiği göz önüne alındığında, etkinin boyutunu gösterebileceklerini düşündüm. Ancak benim sorunumda katsayılar hassas bir şekilde seçtiğim özelliklere bağlı görünüyor. Katsayıların işareti bile girdi olarak seçilen farklı özellik kümeleri ile değişir.

Katsayıların değerini incelemek mantıklı mı ve en anlamlı katsayıları bulmanın ve anlamlarını kelimelerle ifade etmenin doğru yolu nedir? Bazı monte edilmiş modeller ve katsayıları belirtisi yanlış mı - verilere uygun olsalar bile?

(Özellikler arasında en yüksek korelasyon sadece 0.25, ama bu kesinlikle bir rol oynuyor?)


Düzenli olarak ne demek istediğinizi açıklar mısınız? Bir L2 ceza süreniz var mı ve eğer öyleyse, örneğin çapraz doğrulamayla en uygun faktörü araştırdınız mı?
seanv507

Evet, katsayılar üzerinde L2 ceza şartlarına izin veriyorum. Optimal düzenleyici faktörü aradım, ancak özellik seçimini (ileri seçim gibi) henüz kullanmadım. Bununla birlikte, bu konuda belirsiz hissetmemi sağlıyor, çünkü katsayılar dahil ettiğim özelliklerin seçimine çok hassas bir şekilde bağlı. Her özelliğin pozitif sınıfın olumlu ya da olumsuz etkisi olduğunu varsayarsak, bunların gücünü ve yönünü nasıl belirleyebilirim?
Gerenuk

Yanıtlar:


14

Çıktı katsayılarının bir anlamı vardır, ancak çoğu insan için çok sezgisel değil ve kesinlikle bana göre değil. Bu yüzden insanlar onları oran oranlarına çevirir. Ancak, oran oranının günlüğü katsayıdır; eşdeğer olarak, üssel katsayılar olasılık oranlarıdır.

Katsayılar en çok bağımlı değişkenin her seviyesinde olma olasılığını veren formüllere takmak için kullanışlıdır.

örneğin R

library("MASS")
data(menarche)
glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age,
                family=binomial(logit), data=menarche)

summary(glm.out)

Yaş için parametre tahmini 1.64'tür. Ne anlama geliyor? Peki, kesme noktası (-21.24) için parametre tahmini ile birleştirirseniz, menarş olasılığını tahmin eden bir formül alabilirsiniz:

P(M)=11+e21.241.64age

e1.64=5.16


4

Katsayıları doğrudan yorumlamak zordur ve yanıltıcı olabilir. Değişkenler arasında ağırlıkların nasıl verildiği konusunda hiçbir garantiniz yoktur.

Açıkladığınız duruma benzer kısa bir örnek: Kullanıcıların bir web sitesi ile etkileşimlerinin bir modeli üzerinde çalıştım. Bu model, bir kullanıcı oturumunun ilk saatinde ve ikinci saatinde "tıklama" sayısını temsil eden iki değişken içeriyordu. Bu değişkenler birbiriyle yüksek derecede ilişkilidir. Bu değişken için her iki katsayı da pozitif olsaydı, kendimizi kolayca yanlış yönlendirebiliriz ve belki de daha yüksek katsayının "daha yüksek" önemi gösterdiğine inanabiliriz. Ancak, başka bir öğe ekleyerek / çıkararakdeğişkenler, birinci değişkenin pozitif ve diğerinin negatif olduğu bir modelle kolayca sonuçlanabiliriz. Sonuç olarak, mevcut değişkenlerin çoğu çifti arasında bazı önemli (düşük de olsa) korelasyonlar olduğu için, katsayıları kullanan değişkenlerin önemi konusunda güvenli bir sonuca sahip olamayacağımızdı (eğer bu yorum doğrudur).

Bir fikrin yorumlanmasının daha kolay olduğu bir model almak istiyorsanız, Kement kullanmak (L1 normunun en aza indirilmesi) olacaktır. Seyrek çözümlere yol açan değişkenler birbirleriyle daha az ilişkilidir. Ancak, bu yaklaşım bir önceki örneğin her iki değişkenini de kolayca seçmeyecektir - biri sıfır ağırlıklı olacaktır.

Sadece belirli değişkenlerin veya değişken kümelerinin önemini değerlendirmek istiyorsanız, doğrudan bazı özellik seçim yaklaşımını kullanmanızı tavsiye ederim. Bu tür yaklaşımlar çok daha anlamlı kavrayışlara ve hatta bazı ölçütlere dayanan değişkenlerin önemine ilişkin küresel sıralamalara yol açar.


0

Katsayıların kesinlikle bir anlamı vardır. Bazı yazılım paketlerinde model, iki tür katsayıdan birini üretmek için iki yoldan birine yönlendirilebilir. Örneğin, Stata'da Lojistik komutu veya logit komutu kullanılabilir; birini kullanırken, model geleneksel katsayılar verirken, diğerini kullanırken model oran oranları verir.

Birinin sizin için diğerinden daha anlamlı olduğunu görebilirsiniz.

Sorunuz hakkında "... katsayıların duyarlılığa bağlı olduğu görülüyor ...".

Sonuçların modele koyduğunuz değişkenlere bağlı olduğunu mu söylüyorsunuz?

Eğer öyleyse, evet, bu regresyon analizi yaparken hayatın bir gerçeğidir. Bunun nedeni, regresyon analizinin bir grup sayıya bakması ve bunları otomatik bir şekilde kırmasıdır.

Sonuçlar değişkenlerin birbiriyle nasıl ilişkili olduğuna ve hangi değişkenlerin ölçülmediğine bağlıdır. Bir bilim olduğu kadar bir sanattır.

Ayrıca, modelin örneklem büyüklüğü ile karşılaştırıldığında çok fazla yordayıcısı varsa, işaretler çılgınca ters dönebilir - bence bu, modelin tahminlerini "ayarlamak" için küçük bir etkiye sahip değişkenler kullandığını söylüyor. büyük etkisi olan (küçük kalibrasyonlar yapmak için küçük bir ses düğmesi gibi). Bu olduğunda, küçük etkileri olan değişkenlere güvenmeme eğilimindeyim.

Öte yandan, yeni öngörücüler eklediğinizde başlangıçta işaretler değişebilir, çünkü nedensel gerçeğe yaklaşıyorsunuz.

Örneğin, Grönland Brendi'nin sağlığı için kötü olabileceğini, ancak gelirinin sağlığı için iyi olduğunu düşünelim. Gelir ihmal edilirse ve daha zengin insanlar Brandy içerse, model ihmal edilen gelir etkisini "alabilir" ve alkolün sağlığınız için iyi olduğunu söyleyebilir.

Hiç şüphe yok ki, katsayıların dahil edilen diğer değişkenlere bağlı olduğu bir hayat gerçeğidir. Daha fazla bilgi edinmek için "atlanan değişken önyargı" ve "sahte ilişki" konusuna bakın. Bu fikirlerle daha önce karşılaşmadıysanız, ihtiyaçlarınızı karşılayan istatistik kurslarına giriş bulmaya çalışın - bu, modelleri yapmakta büyük bir fark yaratabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.