Doğrusal regresyonda logaritmik olarak dönüştürülmüş katsayılar nasıl yorumlanır?


10

Benim durumum:

Basit doğrusal regresyon için artıklarını normalleştirmek üzere logaritmik olarak dönüştürdüğüm 1 sürekli bağımlı ve 1 sürekli yordayıcı değişkenim var.

Bu dönüştürülmüş değişkenleri orijinal bağlamlarıyla nasıl ilişkilendirebileceğim konusunda her türlü yardımı takdir ediyorum.

2011'de kaçırdıkları gün sayısına göre 2011'de öğrencilerin okula gitmedikleri gün sayısını tahmin etmek için doğrusal bir regresyon kullanmak istiyorum. Çoğu öğrenci 0 günü kaçırıyor ya da sadece birkaç gün veriler sola doğru eğri. Bu nedenle, doğrusal regresyon kullanmak için dönüşüme ihtiyaç vardır.

Her iki değişken için log10 (var + 1) kullandım (0 günlük okulu kaçırmış öğrenciler için +1 kullandım). Regresyon kullanıyorum çünkü kategorik faktörler eklemek istiyorum - cinsiyet / etnik köken vb.

Benim sorunum:

Geri beslemek istediğim kitle log10 (y) = log (sabit) + log (var2) x (ve açıkçası ben de anlamıyorum) anlamadı.

Sorularım:

a) Regresyonda dönüştürülmüş değişkenleri yorumlamanın daha iyi yolları var mı? Yani 2010 yılında 1 gün kaçırdılar 2010 yılında 1 günlük birim değişikliği yerine 2011 yılında 2 gün özleyecekler 2011 yılında x günlük birimleri değişikliği olacak?

b) Özellikle, bu kaynaktan alıntı yapılan pasaj aşağıdaki gibi verildiğinde :

"Bu, diğer değişkenler modelde sabit tutulursa, matematik standart test skorunda bir birim artış için negatif binomiyal regresyon tahmini. Eğer bir öğrenci matematik test puanını bir puan arttırırsa, günlüklerindeki fark modeldeki diğer değişkenleri sabit tutarken beklenen sayımların 0.0016 birim azalması beklenir. "

Bilmek isterim:

  • Bu pasaj, UNTRANSFORMEDdeğişken matematiğin puanındaki her bir birim artış için sabit (a) 'dan 0.0016 düşüşe yol açtığını söylüyor , bu yüzden UNTRANSFORMEDmatematik puanı iki puan yükselirse, a sabitinden 0.0016 * 2 çıkarır mıyım?
  • Bu, üstel (a)) ve üstel (a + beta * 2) kullanarak geometrik ortalama elde ettiğim ve bu iki değişken arasındaki yüzde farkını hesaplamak zorunda olduğum anlamına gelir. bağımlı değişken üzerinde?
  • Yoksa tamamen yanlış mı yaptım?

SPSS v20 kullanıyorum. Bunu uzun bir soruda çerçevelediğim için üzgünüm.



8
Bunun yerine Poisson regresyonunu kullanmayı düşündünüz mü? Doğal olarak bağımlı sayım verileriyle gösterilir ve bir günlük dönüşümü ile başarınız Poisson dağılımları ile tutarlıdır. Katsayılar, okulun bir gününü kaybetme olasılığındaki orantılı artışlar açısından yorumlanacaktır. Bir avantaj, sıfırların özel bir tedavisine gerek olmamasıdır (sıfır şişirilmiş alternatif bir modele bakmak hala çok iyi bir fikirdir).
whuber

Merhaba Whuber, Evet, Poisson regresyonunu düşünüyordum ama bundan emin değildim ya da negatif binom regresyonunu seçmedim. Veriler aşırı dağınık olduğu için negatif binom tahmin ediyorum - yani, veri kümesindeki varyanstan daha düşüktür (dolayısıyla pozitif çarpıklık). Ayrıca, kesinlikle, yıl içinde okul oturum sayısında bir üst sınır var, Poisson sınırsız bir payda varsayar? Yoksa hala Poisson'un daha uygun olduğunu düşünüyor musunuz? Ne yazık ki SPSS, gördüğüm kadarıyla sıfır şişirilmiş modelleri desteklemiyor ...) Teşekkürler Whuber :)
JimBob 31:11

3
Poisson dağılımlarının sınırsız desteğiyle ilgili bir sorun görmüyorum: Normal olmayan dağılımları modellemeye, örneğin negatif olması gereken değerleri modellemeye benzer. İmkansız değerlerle ilişkili şansın küçük olması şartıyla, yine de iyi bir model olabilir. Negatif binom, uyum iyiliğini ve aşırı dağılımını test etmek için kullanılan Poisson'a standart bir alternatiftir; iyi fikir. SPSS çok sınırlıysa, başka bir şey kullanın! ( Rsıfır şişirilmiş modeller için paketleri vardır; bu sitede arama yapın .)
whuber

2
@Whuber ile hemfikirim. Sanırım muhtemelen bir ZIP veya ZINB modeli istiyorsunuz. Ben sadece onlar da PROC COUNTREG (ETS içinde) SAS kullanılabilir olduğunu ve SAS 9.2 ile başlayarak, PROC GENMOD (STAT)
Peter Flom

Yanıtlar:


7

Bence en önemli nokta @ whuber'ın yorumunda öneriliyor. Tüm yaklaşımınız yanlış bir şekilde desteklenmiştir çünkü logaritmaları alarak 2010 veya 2011'de sıfır gün eksik olan tüm öğrencileri veri kümesinden etkili bir şekilde dışarı atıyorsunuz. Bu insanların bir sorun olması için yeterince var gibi görünüyor ve eminim sonuçlarınız kullandığınız yaklaşıma göre yanlış olun.

Bunun yerine, poisson tepkisi olan genelleştirilmiş doğrusal bir model takmanız gerekir. Uygun modül için ödeme yapmadıkça SPSS bunu yapamaz, bu yüzden R'ye yükseltmenizi öneririm.

Yine de katsayıları yorumlama probleminiz olacak, ancak bu temel olarak uygun bir modele sahip olmanın önemine ikincil.


xlog(x+1)

3

Diğer modellerle, özellikle modelin şekli konusunda hemfikirim. Ben sorunuzun motivasyonunu anlamak, ancak, genel kitlelere hitap ve iletmek istiyorsanız asli(teorik) analizinizin anlamı. Bu amaçla, tahmin edilen değerleri (örneğin, kaçırılan tahmini günler) çeşitli "senaryolar" altında karşılaştırırım. Seçtiğiniz modele bağlı olarak, öngörücüler belirli sabit değerlerde (örneğin, ortancaları veya sıfırları) olduğunda bağımlı değişkenin beklenen sayısını veya değerini karşılaştırabilir ve ardından öngörücülerde "anlamlı" bir değişikliğin nasıl olduğunu gösterebilirsiniz. tahminleri etkiler. Tabii ki, verileri yeniden başladığınız orijinal, anlaşılır skalaya dönüştürmelisiniz. "Anlamlı değişim" diyorum çünkü çoğu zaman standart "X'deki tek bir birim değişiklik" bağımsız bir değişkenin gerçek ithalatını veya eksikliğini aktarmaz. "Katılım verileri" ile böyle bir değişikliğin ne olacağından emin değilim. (Bir öğrenci 2010'da hiçbir gün ve 2011'de bir gün kaçırdıysa, Hiçbir şey öğrenemeyeceğimizden emin değilim. Ama bilmiyorum.)


2

Y=bXXY=blog(X)Xblog(1.01)

Düzenleme: whoops, bağımlı değişkeninizin de günlüğe dönüştürüldüğünün farkında değildi. İşte bu üç durumu açıklayan iyi bir örneği içeren bir bağlantı:

1) sadece Y dönüştürülür 2) sadece öngörücüler dönüştürülür 3) hem Y hem de öngörücüler dönüştürülür

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
Merhaba JC, Cevabınız için teşekkürler. Hem bağımlı hem de bağımsız değişkenlerimi tutarlılık için dönüştürme yaklaşımını aldım, ancak IV'lerine kıyasla normalite için gerçekten dönüşmesi gereken DV'nin sadece DV olduğunu okudum.
jimbob

Aslında önerdiğiniz bağlantıyı gördüm (teşekkürler tho) ama özellikle geometrik ortalama ile 'gerçek hayat' karşılaştırması konusunda birkaç noktada net değildim, ancak geometrik ortalamanın kullanılması modelleme ile daha fazla ilgili olduğunu tahmin ediyorum x'deki birim değişiklik başına y'nin sonucu yerine x'deki değişimin y üzerindeki etkisi? Sanırım geri dönüp ikinci okumaya ihtiyacım var ...
JimBob

2

YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2

şunları gösterebilirsiniz:

YC M1X1 M2X2 M3X3 ,

burada: , ve çarpanlardır. Yani, değişken 1'e eşit olduğu her zaman , tahmin ile çarpılır . Örneğin, , ve ise tahmininiz:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

kullanıyorum çünkü bu tam olarak ortalamasının tahmini değil : log-normal dağılımın ortalama parametresi genellikle rastgele değişkenin ortalaması değil (klasik doğrusal regresyon için )-log dönüşümü. Burada kesin bir referansım yok, ama bunun açık bir akıl yürütme olduğunu düşünüyorum.Y


3
Lognormal konular hakkında endişelenmenize gerek yok: çarpanlar ne olursa olsun doğrudur. (Heterossedastik modellerde bir sorun olacaktır.) Bunun nedeni, burada , . BTW, lütfen yazım hataları için tanımlarınızı tarayın . E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.