Modellerde lojistik regresyon katsayıları karşılaştırılsın mı?


11

Altı farklı kesitsel veri kümesine uygulanacak bir logit modeli geliştirdim. Ne ortaya çıkarmak için çalışıyorum, farklı zamanlarda ve zaman içinde diğer açıklamalar için kontrol bağımsız değişken (IV) bağımlı değişken (DV) üzerinde önemli bir etkisi değişiklikler olup olmadığıdır.

Sorularım:

  • IV ve DV arasındaki ilişkide artmış / azalmış boyutu nasıl değerlendirebilirim?
  • Modeller arasındaki katsayıların farklı büyüklüklerine (boyutlarına) bakabilir miyim yoksa başka bir süreçten geçmem gerekir mi?
  • Başka bir şey yapmam gerekirse, bu nedir ve yapılabilir / SPSS'de nasıl yapabilirim?

    Ayrıca, tek bir modelde,

  • Hepsi 0-1 olarak kodlanmışsa bağımsız değişkenlerin göreceli boyutunu standart olmayan puanlara göre karşılaştırabilir miyim veya bunları standartlaştırılmış puanlara dönüştürmem gerekir mi?
  • Standartlaştırılmış puanlarla ilgili sorunlar var mı?

2
Bu makale ilgi çekici olabilir, dx.doi.org/10.1093/esr/jcp006 , görünüşe göre Lojistik modeller arasındaki etkileri karşılaştırmak OLS vakasından çok daha karmaşıktır!
Andy W

Yanıtlar:


13

Esas olarak ilk üç sorunuza odaklanacağım. Kısa cevaplar şunlardır: (1) IV'ün DV üzerindeki etkisini her zaman periyodu için karşılaştırmanız gerekir, ancak (2) sadece büyüklükleri karşılaştırmak yanlış sonuçlara yol açabilir ve (3) bunu yapmanın birçok yolu vardır, ancak hangisinin doğru olduğu konusunda fikir birliği yoktur.

Aşağıda neden katsayı büyüklüklerini basitçe karşılaştıramayacağınızı ve sizi şimdiye kadar düşünülmüş bazı çözümlere yönlendiremeyeceğinizi açıklıyorum.

Allison'a (1999) göre OLS'den farklı olarak lojistik regresyon katsayıları, bu tür heterojenlik ilgili değişkenle ilgili olmasa bile gözlemlenmeyen heterojenlikten etkilenmektedir.

Aşağıdaki gibi bir lojistik regresyona uyduğunuzda:

(1)

ln(11pi)=β0+β1x1i

Aslında , ikili bağımlı değişkente değerini varsaymak için her bir gözlemin altında yatan eğilimi temsil eden bir gizli değişkeninin değerini tahmin eden bir denklem takıyorsunuz, belirli bir eşiğin üzerindeyse ne olur . Bunun denklemi (Williams, 2009): 1 y y1y

(2)

y=α0+α1x1i+σε

teriminin , diğer terimlerden bağımsız olduğu ve bir lojistik dağıtım veya probit durumunda normal bir dağılım ve tamamlayıcı log-log durumunda bir log-lojistik dağılım ve aşağıdaki durumlarda cauchy dağılımını izlediği varsayılır. cauchit.ε

Williams'a (2009) göre, denklem 2'deki katsayıları denklem 1'deki katsayıları ile ilgilidir:βαβ

(3)

βj=αjσj=1,...,J.

Denklem 2 ve 3'te, gözlemlenmeyen varyasyonun ölçeklendirme faktörüdür ve tahmini katsayılarının boyutunun gözlemlenmeyen bağlı olduğunu görebiliriz . Buna dayanarak, Allison (1999), Williams (2009) ve Mood (2009), diğerleri arasında, farklı gruplar, ülkeler veya dönemler için tahmin edilen lojistik modeller arasındaki katsayıları saf bir şekilde karşılaştıramayacağınızı iddia ediyor.β σσβσ

Çünkü gözlemlenmeyen varyasyon gruplar, ülkeler veya dönemler arasında farklılık gösterirse karşılaştırmalar yanlış sonuçlar verebilir. Farklı modeller kullanan ve aynı modeldeki etkileşim terimlerini kullanan her iki karşılaştırma da bu sorundan muzdariptir. Logit'in yanı sıra, bu aynı zamanda kuzenleri probit, tıkanma-log, cauchit ve bu bağlantı fonksiyonları kullanılarak tahmin edilen ayrık zamanlı tehlike modelleri için de geçerlidir. Sıralı logit modelleri de bundan etkilenir.

Williams (2009), çözümün gözlemlenmeyen varyasyonu heterojen bir seçim modeli (bir konum ölçeği modeli olarak da bilinir) ile modellemek olduğunu ve bunun için bir Stata eklentisi sağladığını savunmaktadır oglm (Williams 2010). R'de heterojen seçim modelleri, CRAN aracılığıyla mevcut olan paketin hetglm()fonksiyonuna uygun olabilir glmx. Her iki programın da kullanımı çok kolaydır. Son olarak, Williams (2009) SPSS'in PLUMbu modelleri uydurma rutininden bahsetmektedir , ancak hiç kullanmadım ve kullanmanın ne kadar kolay olduğu konusunda yorum yapamam.

Bununla birlikte, varyans denklemi yanlış belirtilmişse veya ölçüm hatası varsa, heterojen seçim modellerini kullanan karşılaştırmaların daha da taraflı olabileceğini gösteren en az bir çalışma belgesi vardır.

Mood (2010), varyansın modellenmesini içermeyen, ancak öngörülen olasılık değişikliklerinin karşılaştırmasını kullanan diğer çözümleri listeler.

Görünüşe göre bu çözülmemiş bir konudur ve genellikle alanımın (Sosyoloji) konferanslarındaki kağıtların farklı çözümler ürettiğini görüyorum. Alanınızdaki insanların neler yaptığına bakmanızı ve ardından bununla nasıl başa çıkacağınıza karar vermenizi öneririm.

Referanslar


Ben Williams (2009) çözüm R uygulamaya çalışıyorum ve glmx paketinin yeni sürümleri artık hetprob () işlevi yok gibi görünüyor. Bunun için alternatifler olup olmadığını kontrol etmek istediniz mi?
AliCivil

1
Bir süredir glmx kullanmadım ve değiştiğini bilmiyordum. Şimdi CRAN aracılığıyla kullanılabilir ve buradaroskedastik probit için kullanılan işleve görünüşe göre hetglm () denir. Bu cevabı daha sonra bunu yansıtacak şekilde güncelleyeceğim (burada yatma zamanı hakkında). Umarım şimdilik yardımcı olur.
Kenji

3

Veri kümelerinde değişiklikler var mı? Verileri görmeden buna cevap verebilirim! Evet. Var. Ne kadar büyükler? Bu anahtar. Benim için görmenin yolu bakmaktır. Her veri kümesi için her bir bağımsız değişken için oran oranlarına sahip olacaksınız - bunlar insanların ilginç bulma biçimlerinden farklı mı? Şimdi, her birinin standart bir hataya sahip olacağı doğrudur ve muhtemelen birbirlerinden istatistiksel olarak önemli ölçüde farklı olup olmadıklarını görmenin yolları vardır, ancak bu gerçekten ilginç bir soru mu? Eğer öyleyse, yazılım ile kolayca test etmenin bir yolu tüm çalışmaları birleştirmek ve başka bir bağımsız değişken olarak "etüdü" dahil etmektir. İsterseniz etkileşimleri bile test edebilirsiniz. Bunu yapmak isteyip istemediğiniz önemli sorularınıza bağlıdır.

Bir modeldeki değişkenlerin karşılaştırılmasıyla ilgili olarak, ana problem standartlaştırılmış puanlarla ilişkilidir. Dolayısıyla, parametre tahminleri vb. Özel numunenizdeki değişkenlerin standart sapmaları cinsindendir. Örneğiniz bazı popülasyonlardan gerçekten rastgele bir örnek olsa bile, diğer rastgele örneklerden (biraz) farklı standart sapmalara sahip olacaktır. Bu işleri karıştırır.

Diğer sorun "göreceli boyut" sorununun ne anlama geldiği. IV'leriniz iyi anlaşılmış şeylerse, OR'leri bir şey ifade eden aralıklarda karşılaştırabilirsiniz.


Yararlı, teşekkürler Peter. İlk soruyu sormamın nedeni, bir örnek içerisindeki modeller arasındaki katsayıların karşılaştırılması ve hakemli makalelerde farklı örneklerden modeller arasındaki karşılaştırmalar olduğunu gördüm. Bunun doğru yaklaşım olduğunu hissetmedim ve açıkçası doğruyum. Teknik ayrıntılarla ilgili olarak, altı numunenin hepsinde bir model ve karşılaştırmak istediğim anahtar tahminci ile her bir örneği belirten bir değişken arasındaki (farklı bir süreyi temsil eden) bir etkileşim terimi tahmin edemez miyim? Söylediğin bu mu? Her s için bir değişkene ihtiyacım var mı
Ejs

Merhaba @ejs. "Örnek" i diğer kategorik değişkenlerle aynı şekilde kodlamanız gerekir - kukla kodlama veya efekt kodlaması veya her neyse.
Peter Flom

Etkileşimlerle ilgili olarak ... evet, yorumlanması zor olabilir. Ne anlama geldiklerini göstermek için grafiksel bir yaklaşımı seviyorum.
Peter Flom

3

Guilherme burada para için. Diğer yanıtlar yararlı olsa da, lojistik regresyonun (ve bu konu için Poisson gibi tüm doğrusal olmayan regresyonun) doğrusal regresyondan temel olarak farklı olduğunu lütfen unutmayın. Aynı analizi altı farklı veri setinde çalıştırdıktan ve daha sonra bu analizi birleştirilmiş veri setinde çalıştırırken logit ölçeklendirme faktörü ile ilgili ciddi sorunlar olabilir. Katsayılardaki değişikliklerin anlamlı farklarla bir ilgisi olmayabilir (istatistiksel olarak anlamlı veya önemli olsa bile). Örnekler arasında gözlemlenmemiş heterojenlik ile ilgili her şeye sahip olabilirler. Bunu mutlaka test etmelisiniz. Sosyal ve politika bilimleri alanlarındaki birçok araştırmacı (çoğu olmasa da) bunu görmezden gelir. Guilherme, herkesin bakmasını tavsiye ettiğim seminal makaleleri veriyor. Peters'in önerileri pratik, ancak verilerin geldiği örnek için basit bir değişkenin kodlanması, ölçeklendirme faktöründeki bu heterojenliği ele almayacaktır. Bunu doğrusal regresyonda yapabilirsiniz ve heterojenlik katsayılarınızı etkilememelidir, ancak burada olabilir.

Logit ve lineer regresyona özgü gözlemlenmeyen heterojenitenin etkisinin bir diğer yönü, her veri setindeki farklı regresörlerin etkisidir. Aynı değişkenlere sahip değilseniz veya muhtemelen farklı ölçülüyorsa, bir tür atlanmış değişken önyargıya sahipsiniz. Doğrusal regresyondan farklı olarak, anahtar regresörünüze dik olan bir değişken, tahmininizi yine de saptırabilir. Cramer'ın söylediği gibi:

Ortogonal regresörlerde bile, atlanan değişkenler değerini tam denklemdeki değerine göre sıfıra doğru bastırır . Diğer bir deyişle, kesikli model gözlemlenmeyen heterojenite ölçüde ters etkiler. Pratik sonuç, bu açıdan farklılık gösteren örneklerden yapılan tahminlerin doğrudan karşılaştırılamaz olmasıdır. ( http://dare.uva.nl/document/2/96199 ) pβ^β^

Cramer, katsayı tahminleri bir değişkeni atlarken aşağıya doğru eğimli olmasına rağmen, kısmi türevler değildir. Bu oldukça karmaşıktır ve makaleyi daha anlaşılır bir açıklama için okumalısınız - genel nokta, sadece log-odds veya odds oranlarına bakmayın. Öngörülen olasılıkları ve türevlerini düşünün; daha fazla bilgi için Stata'daki kenar boşlukları komutuna bakın. JD Long'un burada ayrıntılara giren bir makalesi var.

Son olarak, logit modellerindeki etkileşim terimlerini tartışmak için Google'da kullanabileceğiniz birkaç makale vardır. Benim anlayışım, özellikle katsayıları üssel oranlar olarak görmeyi tercih ederseniz, bir etkileşim olarak logit katsayısını bir rehber olarak almak, ancak kesin değil. Öngörülen olasılıklara ve ortalama marjinal etkiye bakmak daha iyidir (yine, SPSS kullansanız bile Stata'nın logit margin komutu ile ilgili belgelere bakın, bu yine de yardımcı olacaktır).

Bu paketin bu sorunlarla nasıl başa çıkabileceğini bilmek için SPSS'ye yeterince aşina değilim, ancak şunu söyleyeceğim: bunun gibi daha derin istatistiksel sorunlara girdiğinizde, daha fazlasına geçmenin zamanı geldiğinin bir göstergesi Stata veya R gibi esnek, sofistike paket


Marjinal etkileri tavsiye etmek ve R'ye
Kenji

1

Yararlı olabilecek başka bir araç, standartlaştırılmış regresyon katsayısı veya en azından kaba ve hazır bir sahte versiyondur. Elde edilen katsayınızı öngörücünün standart sapması ile çarparak böyle bir sürüm elde edebilirsiniz. (En iyi sürümle ilgili başka sürümler ve bazı tartışmalar vardır, örneğin bkz. Menard 2002, Uygulamalı Lojistik Regresyon Analizi ( Google kitapları )). Bu, çalışmalardaki etkinin gücünü değerlendirmek için bir yol verecektir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.