Doğrusal regresyonda, gerçek değerler yerine bağımsız değişken kütüğünün kullanılması ne zaman uygun olur?


164

Söz konusu bağımsız değişken için daha iyi davranışlı bir dağıtım mı arıyorsunuz?


1
Aykırı değerlerin etkisini nasıl azaltacağınızı veya bazı değişkenlerin günlüğünü ne zaman kullanacağınızı mı soruyorsunuz?
Benjamin Bannier

23
OP’nin "Giriş değişkenlerini günlüğü kullanan kişileri duydum: neden bunu yapıyorlar?" Olduğunu düşünüyorum.
Shane

Neden sadece kütük? Bu soru mx + b ile ilişkili kalıntıları en aza indirmek için kullanılabilecek herhangi bir veri dönüştürme tekniği için geçerli olmamalıdır mı?
AsymLabs

1
@AsymLabs - Günlük, regresyonda özel olabilir, çünkü bir ürünü bir toplama dönüştüren tek işlevdir.
Olasılık

12
Okuyucular için bir uyarı: Soru IV'leri dönüştürmekle ilgili sorular sorar, ancak cevapların bazıları DV'leri dönüştürmek için nedenlerden bahsediyor gibi görünmektedir. Bunların hepsi aynı zamanda IV'leri dönüştürmenin nedenleri de olduğunu düşünmeyin - bazıları olabilir, bazıları kesinlikle değil. Özellikle, IV'ün dağılımı genel olarak anlamlı değildir (aslında DV'nin marjinal dağılımı da değildir).
Glen_b

Yanıtlar:


168

Her zaman, bu kadar mükemmel cevapları olan bir ipliğe atlamakta tereddüt ediyorum, ancak cevapların çok azının, logaritmayı kök ya da karşılıklı gibi verileri "ezen" başka bir dönüşüm için tercih etmenin herhangi bir neden sağladığını vurguladım.

Buna başlamadan önce , varolan cevaplarda bilgeliği daha genel bir şekilde yeniden akılda tutalım . Bazı bağımlı değişken lineer olmayan yeniden ekspresyonu, belirtilen zaman herhangi uygulanmaktadır:

  • Artıklar eğri bir dağılıma sahiptir. Bir dönüşümün amacı, yaklaşık olarak simetrik olarak dağılmış artıkları (yaklaşık olarak sıfır) elde etmektir.

  • Artıkların yayılması, bağımlı değişkenin ("heteroscedasticity") değerleri ile sistematik olarak değişir. Dönüşümün amacı, yaklaşık "eşcinselliği" elde ederek, sistematik değişimin yayılmasının giderilmesidir.

  • Bir ilişkiyi doğrusallaştırmak.

  • Bilimsel teori ne zaman gösterir. Örneğin, kimya genellikle konsantrasyonları logaritma olarak ifade etmeyi önerir (aktiviteler ve hatta bilinen pH'ı verir).

  • Daha titiz bir istatistiksel teori, artıkların, ilave olarak birikmeyen "rastgele hataları" yansıttığını önerdiğinde.

  • Bir modeli basitleştirmek için. Örneğin, bazen bir logaritma "etkileşim" terimlerinin sayısını ve karmaşıklığını basitleştirebilir.

(Bu endikasyonlar birbirleriyle çatışabilir; bu gibi durumlarda yargılamaya ihtiyaç duyulur.)

Peki, başka bir dönüşüm yerine logaritma ne zaman özel olarak belirtilir ?

  • Artıklar "kuvvetli" bir pozitif yayılma dağılımına sahiptir. EDA hakkındaki kitabında, John Tukey, artıkların rütbe istatistiklerine dayanarak dönüşümü (Box-Cox ailesi veya gücü, dönüşümler ailesinin içinde) tahmin etmenin nicel yollarını sunmaktadır. Gerçekten eğer kütük almak artık kalıntıları simetize ederse, muhtemelen doğru ifade biçimidir. Aksi takdirde, başka bir yeniden ifadeye ihtiyaç duyulur.

  • Artıkların SD değeri, takılan değerlerle doğrudan orantılı olduğunda (takılı değerlerin gücüyle değil).

  • İlişki üstel ile yakın olduğunda.

  • Artıkların çoğul olarak biriken hataları yansıttığına inanıldığında.

  • Açıklayıcı değişkenlerdeki marjinal değişikliklerin, bağımlı değişkendeki çarpımsal (yüzde) değişiklikler olarak yorumlandığı bir model istiyorsunuz.

Son olarak, bazı sivil - nedenleri yeniden ifadesini kullanmak :

  • Aykırıklar, aykırılık gibi görünmüyor. Bir aykırı, verilere ilişkin bazı basit, nispeten basit bir açıklamaya uymayan bir veridir. Aykırı olanların daha iyi görünmesi için tanımının değiştirilmesi genellikle önceliklerin yanlış bir şekilde tersine çevrilmesidir: önce verilerin bilimsel olarak geçerli, istatistiksel olarak iyi bir tanımını alın ve sonra aykırı olanları araştırın. Ara sıra çalışanın verinin geri kalanını nasıl tanımlayacağına karar vermesine izin verme!

  • Çünkü yazılım otomatik olarak yaptı. (Yeterince söylendi!)

  • Çünkü tüm veriler olumlu. (Pozitiflik sıklıkla pozitif çarpıklık anlamına gelir, ancak buna gerek yoktur. Ayrıca, diğer dönüşümler daha iyi çalışabilir. Örneğin, bir kök genellikle sayılan verilerle en iyi şekilde çalışır.)

  • "Kötü" verileri (belki de düşük kalitede) yapmak için iyi davranılmış görünmektedir.

  • Verileri çizebilmek. . Bir dönüşüm verileri çizmek muktedir gerekiyorsa (muhtemelen gerçekten dönüşüm için tek nedeni, devam edin planlamakla içinse önce bahsedilen bir veya daha fazla iyi nedenler için gerekli ve bunu yapacak - ama sadece çizmek için Verileri analiz için dönüştürülmemiş bırakın.)


1
Bir bölgedeki nüfus yoğunluğu veya her okul bölgesi için çocuk-öğretmen oranı veya nüfustaki 1000 kişi başına düşen cinayet sayısı gibi değişkenlere ne dersiniz? Profesörlerin bu değişkenlerin kaydını tuttuğunu gördüm. Bana neden belli değil. Örneğin, cinayet oranı zaten bir yüzde değil mi? Günlük, oranın yüzde değişimini mi gösterir? Çocuk-öğretmen oranı günlüğü neden tercih edilmelidir? Gerçek bir işlevsel form hakkında altta yatan bir teori olmadığı zaman log dönüşümü her sürekli değişken için yapılmalı mıdır?
user1690130

1
@ JG Küçük oranlar eğri dağılımlara sahip olma eğilimindedir; logaritmalar ve kökler onları daha simetrik hale getirebilir. Yüzdelere ilişkin sorularınızı anlamıyorum: belki de farklı yüzdelik kullanımları (bir şeyi bir bütünün oranı olarak ifade etmek, diğeri göreceli bir değişikliği ifade etmek için ifade eder) ile sınırlandırıyorsunuzdur? Logaritmaların her zaman uygulanmasını savunan bir şey yazdığımı sanmıyorum - bundan çok uzak! Bu yüzden son sorunuzun temelini anlamadım.
whuber

2
"Artıkların çoğul olarak biriken hataları yansıttığına inanıldığında." Bu cümleyi yorumlamakta sorun yaşıyorum. Bunu bir ya da iki cümle ile biraz silmek mümkün mü? Bahsettiğiniz birikme nedir?
Hatshepsut

Oranlar ve yoğunluklar için kullanıcı 1690130'da, bunlar genellikle maruziyet için bir dengeleme olan sayımlar için bir poisson-ailesi dağılımı olarak yerleştirilmelidir. Örneğin, insan sayısı sayım ve ofset bölgenin alanıdır. İyi bir açıklama için bu soruya bakın - stats.stackexchange.com/questions/11182/…
Michael Barton

2
@Hatshepsut, çoklayıcı birikimli hataların basit bir örneği, bağımlı değişken olarak hacim ve her doğrusal boyutun ölçümlerinde hatalar olabilir.
abalter

73

Her zaman öğrencilere doğal logaritmayı alarak bir değişkeni dönüştürmenin üç nedeni olduğunu söylerim. Değişkeni günlüğe kaydetme nedeni, bağımsız değişkeni (ler) in bağımlı mı yoksa her ikisini mi kaydetmek istediğinizi belirler. Açık olmak gerekirse, doğal logaritmayı ele almaktan bahsediyorum.

Birincisi, diğer posterlerin belirttiği gibi model uyumunu iyileştirmek için. Örneğin, artıklarınız normal olarak dağılmamışsa, çarpık bir değişkenin logaritmasını almak ölçeği değiştirerek ve değişkeni daha "normal" dağıtılmış hale getirerek oturumu iyileştirebilir. Örneğin, kazançlar sıfırda kesiliyor ve çoğu zaman olumlu bir çarpıklık sergiliyor. Değişken negatif çarpıksa, önce logaritmayı almadan önce değişkeni ters çevirebilirsiniz. Burada özellikle sürekli değişken olarak girilen Likert ölçeklerini düşünüyorum. Bu genellikle bağımlı değişken için geçerli olsa da, bazen bu değişkenin logaritmasını alarak düzeltilebilen bağımsız bir değişkenin neden olduğu artıklar (örn. Heteroscedasticity) ile ilgili problemleriniz vardır. Örneğin, öğretim görevlisi değerlendirmelerini bir dizi öğretim görevlisi ve sınıf değişkeninde açıklayan bir model çalıştırırken, "ders büyüklüğü" değişkenini (yani dersteki öğrenci sayısı) değişkenini sınıflandırmada belirleyen aykırı değerler vardı (çünkü dersteki değerlendirmelerdeki değişkenlik daha küçüktü) daha küçük gruplardan daha çok kohort. Öğrenci değişkenini kaydetmek, bu örnekte Robust Standart Hatalarını hesaplamak veya Ağırlıklı En Küçük Kareler kullanmak, yorumlamayı kolaylaştırabilir.

β β

Y ve X - X'teki bir birim artış neden olurβ

Log Y ve Log X - X'te yol açacaktırβ

β*100

β/100

Ve nihayet bunu yapmak için teorik bir sebep olabilir. Örneğin, tahmin etmek istediğimiz bazı modeller çarpımsal ve dolayısıyla doğrusal değil. Logaritma alarak bu modellerin doğrusal regresyonla tahmin edilmesini sağlar. Buna güzel örnekler arasında ekonomideki Cobb-Douglas üretim fonksiyonu ve eğitimdeki Kıyma Denklemi sayılabilir. Cobb-Douglas üretim fonksiyonu, girdilerin çıktılara nasıl dönüştürüldüğünü açıklar:

Y=birLαKβ

nerede

Y

bir

L

K

αβ

Bunun logaritmalarını almak, OLS doğrusal regresyonunu kullanarak tahmin etmeyi kolaylaştırır:

kütük(Y)=kütük(bir)+αkütük(L)+βkütük(K)

5
"Log Y ve X - X'teki bir birim artış, Y'de β ∗% 100 artış / azalmaya yol açacaktır": Bunun sadece β küçük olduğu durumlarda geçerli olacağını düşünüyorum. (Β) ≈ 1 + β
Ida

1
güzel ve net teşekkürler! Bir soru, log y ve x durumundaki kavşakları nasıl yorumluyorsunuz? ve genel olarak log dönüşümlü regresyonları rapor etme konusunda
endişeliyim

2
İktisattan örnekler içeren cevaplar için ben bir emirciyim ["Beni ' Cobb-Douglas Üretim Fonksiyonunda ' yaptınız '"] .... Yine de bir şey var: İkinci denklemdeki kesişim terimini kütüğe dönüştürmelisiniz ) ilk denklem ile tutarlı hale getirmek için.
Steve S,

100x(eβ-1)

21

Whuber'in logaritmayı bir kök veya karşılıklılık gibi diğer bazı dönüşümlere tercih etme nedenleri hakkındaki mükemmel noktası hakkında, ancak diğer dönüşümlere kıyasla log dönüşümünden kaynaklanan regresyon katsayılarının benzersiz yorumlanabilirliğine odaklanarak , bakınız:

Oliver N. Keene. Günlük dönüşümü özeldir. Tıpta İstatistik 1995; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (Şüpheli yasallığın PDF'si http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf adresinde bulunabilir ).

Eğer oturum ise bağımsız değişkeni X baz için b , bağımlı değişken Değişimin regresyon katsayısı (ve CI) yorumlayabilir y başına b de kat artış x . (Bu nedenle, taban 2'ye giriş günlükleri , x'in iki katına çıkma başına y'deki değişime karşılık geldiklerinden ya da x , daha nadir olan birçok büyüklük sırasına göre değişirse , taban 10'a yapılan günlüklere karşılık geldiklerinde yararlıdır ). Karekök gibi diğer dönüşümlerin bu kadar basit bir yorumu yoktur.

Eğer giriş yaparsanız bağımlı değişken y (önceki cevapların birkaç ele değil orijinal soru ama bir), o zaman (i bir kez bile bir makale hazırlarken kullanılan) sonuçlarının sunulması için cazip 'sympercents' Tim Cole'un fikrini bulmak Buna rağmen, bu kadarını yakalamış görünmüyorlarsa:

Tim J Cole. Belirtiler: 100 log (e) ölçeğindeki simetrik yüzde farkları log dönüştürülmüş verilerin sunumunu kolaylaştırır. Tıpta İstatistik 2000; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [ Stat Med'in DOI olarak SICI’leri kullanmayı bıraktığı için çok mutluyum ...]


1
Referans ve çok iyi noktalar için teşekkür ederiz. İlgi alanı, bu konunun yalnızca günlüklere değil tüm dönüşümlere uygulanıp uygulanmadığıdır. Bize göre, istatistik / olasılık, etkili performans tahmini veya etkili kriterler / rehberlik sağladığı için yetersizdir. Yıllar boyunca, artıkları azaltmaya, güven aralıklarını sıkılaştırmaya ve belirli bir veri kümesinden öngörülebilme kabiliyetini arttırmaya çalışmak için güç dönüşümlerini (başka bir isim tarafından kaydedilen loglar), polinom dönüşümleri ve diğerlerini (parça parça dönüşümleri) kullandık. Şimdi bunun yanlış olduğunu mu söylüyoruz?
AsymLabs

1
@ AsymLabs, Breiman'ın İki kültürü (kabaca tahminciler ve modelleyiciler) ne kadar ayrıdır? Krş İki kültür - çekişmeli.
denis,

15

Biri tipik olarak ölçeklendirmek ve dağıtımı değiştirmek için bir giriş değişkeninin günlüğünü alır (örn. Normal dağılmasını sağlamak için). Ancak, kör olarak yapılamaz; Sonuçların hala yorumlanabilir olduğundan emin olmak için herhangi bir ölçeklendirme yaparken dikkatli olmanız gerekir.

Bu, çoğu giriş istatistiği metinlerinde tartışılmaktadır. Bununla ilgili bir tartışma için Andrew Gelman'ın "İki standart sapma ile bölerek regresyon girişlerini ölçeklendirme" konulu makalesini de okuyabilirsiniz . Ayrıca “Regresyon Kullanarak Veri Analizi ve Çok Düzeyli / Hiyerarşik Modeller” in başında bu konuda çok güzel bir tartışması var .

Kütüğü almak, hatalı verilerle / aykırı durumlarla baş etmek için uygun bir yöntem değildir.


12

Artıklar ile ilgili bir sorun olduğunda verilerin kayıtlarını tutma eğilimindedir. Örneğin, artıkları belirli bir eş değişkene karşı çizer ve artan / azalan bir desen (bir huni şekli) gözlemlerseniz, bir dönüşüm uygun olabilir. Rasgele olmayan artıklar genellikle model varsayımlarınızın yanlış olduğunu, yani normal olmayan verilerin olduğunu gösterir.

Bazı veri türleri otomatik olarak kendilerini logaritmik dönüşümlere dönüştürür. Örneğin, genellikle konsantrasyonlarla veya yaşla uğraşırken günlükleri tutuyorum.

Dönüşümler öncelikli olarak aykırı davrananlar için kullanılmasa da günlükleri alarak verilerinizi ezdiği için yardımcı olurlar.


1
Fakat yine de, log kullanımı modeli değiştirir - lineer regresyon için y ~ a * x + b, fo log'daki lineer regresyon için y ~ y0 * exp (x / x0) olur.

1
Kabul ediyorum - kütük alarak modelinizi değiştirir. Ancak verilerinizi dönüştürmek zorunda kalırsanız, bu modelinizin her şeyden önce uygun olmadığı anlamına gelir.
csgillespie

2
@cgillespie: Konsantrasyonlar, evet; ama yaş? Bu garip.
whuber

@ whuber: Sanırım çok veriye bağlı, ama kullandığım veri setleri 10 ila 18 yaş arasında büyük bir fark görecekti, ancak 20 ila 28 yaş arasında küçük bir fark görüyorsunuz. Küçük çocuklar için bile 0-1 yaş arasındaki fark 1-2 arasındaki farkla aynı değildir.
csgillespie

1
@landroni Kısaca ifade edildi. Zayıf olduğunu söyleyemem, "yani" yerine "yani" amaçlanmıştır, yani "rastgele" nin burada "en genel varsayım olarak kabul edilen en genel varsayım olan" bağımsız ve aynı şekilde dağıtılmış "anlamında kullanıldığını anlıyorum. EKK. Gelen bazı ayarlarda insanlar ayrıca bu ortak temel dağılım normaldir varsayalım, ama bu pratikte veya teoride kesinlikle gerekli değildir: bütün bu gereklidir ilgili istatistiklerin örnekleme dağılımları normale yakın olmak olmasıdır.
whuber

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

Kullanıcım 1690130'un 26 Ekim 12'deki ilk cevaba yapılan yorum olarak bırakılan ve şu şekilde okuduğu soruya cevap vermek istiyorum : "Bir bölgedeki nüfus yoğunluğu veya her okul bölgesi için çocuk-öğretmen oranı veya nüfusta 1000 kişi başına düşen cinayet sayısının profesörlerin bu değişkenlerin kütüğünü aldıklarını gördüm.Neden bana açık değil.Örneğin, cinayet oranı zaten bir yüzde değil mi? oran? Neden çocuk-öğretmen oranının günlüğü tercih edilsin? "

Benzer bir soruyu cevaplamak istiyordum ve eski istatistik derslerimin ders kitabını ( Jeffrey Wooldridge. 2006. Giriş Ekonometri - Modern Bir Yaklaşım, 4. Baskı. Bölüm 6 Çoklu Regresyon Analizi: Diğer Konular. 191 ) söylediklerini paylaşmak istedim . Wooldridge şunları tavsiye eder:

İşsizlik oranı, emeklilik planına katılım oranı, standart bir sınavdan geçen öğrencilerin yüzdesi ve rapor edilen suçlardaki tutuklama oranı gibi bir yüzde veya yüzde olarak görünen değişkenler , orjinal veya logaritmik biçimde görünebilir , seviye formlarda bunları kullanmak için bir eğilim olmasına rağmen . Bunun nedeni, orijinal değişkeni içeren herhangi bir regresyon katsayısının - bağımlı veya bağımsız değişken olup olmadığına - yüzde nokta değişim yorumlaması yapmasıdır. Unem'i işsiz bireylerin yüzdesi olduğu bir regresyonda log ( unem ) kullanırsak, yüzde puan değişimi ile yüzde değişim arasında ayrım yapmak için çok dikkatli olmamız gerekir. Unutma, unem eğer8'den 9'a kadar, bu yüzde bir puanlık bir artış, ancak ilk işsizlik seviyesinden% 12.5'lik bir artış. Kütüğü kullanmak, işsizlik oranındaki yüzde değişime baktığımız anlamına gelir: Kütle (9) - Kütle (8) =% 0.118 veya% 11.8, bunun% 12.5 artışına logaritmik yaklaşımıdır.

Buna dayanarak ve whuber'in kullanıcının1690130 sorusuyla ilgili daha önceki yorumuna bir göz atmaya dayanarak, günlük formunu kullanarak yoğunluğu veya eğriliği azaltmak gibi büyük bir tradeoff üretmediği sürece, yorumlamayı basit tutmak için bir yoğunluk veya yüzde oranı değişkeninin logaritmasını kullanmaktan kaçınırdım. oran değişkeni.


Genellikle yüzdeler için (diğer bir deyişle orantılı veriler genellikle artıkların normalliği varsayımını ihlal ettiği için kullanılır dönüşümü bir logit Bu şekilde, bir (0,1) ilgili oranlar, bir log dönüşümü olacak doğru değil..
Colin

3

Shane, günlükleri kötü verilerle uğraşmakla almanın iyi olduğunu gösteriyor. Colin’in olduğu gibi normal artıkların önemi. Uygulamada, eğer girdi ve çıktı değişkenleri de göreceli olarak normalse, normal artıkları elde edebileceğinizi anlıyorum. Uygulamada bu, dönüştürülmüş ve dönüştürülmemiş veri kümelerinin dağılımını gözlemek ve daha normal olmaları ve / veya normallik testleri yürütmeleri (örneğin Shapiro-Wilk veya Kolmogorov-Smirnov testleri) sonucunun daha normal olup olmadığının belirlenmesi anlamına gelir. Yorumlanabilirlik ve gelenek de önemlidir. Örneğin, bilişsel psikolojideki log reaksiyon zamanındaki dönüşümler sıklıkla kullanılır, ancak bana göre, en azından log RT'nin yorumu net değildir. Ayrıca,


2
Cevaplar oylara göre yeniden sıralanacağından lütfen diğer cevaplara bakmamaya çalışın.
Vebjorn Ljosa

4
Bir normallik testi genellikle çok şiddetlidir. Genellikle simetrik olarak dağılmış artıkları elde etmek yeterlidir. (Uygulamada, artıklar, kısmen şüphelendiğim bir tahmin artefaktı olarak güçlü bir şekilde yüksek dağılımlara sahip olma eğilimindedir ve bu nedenle, verileri nasıl yeniden ifade ettiği önemli değildir, "normalde" normal olmayan bir şekilde test eder.)
whuber

@whuber: Kabul etti. Bu yüzden "daha normal hale gel" dedim. Amaç, testin p değerini temel alan bir kabul etme / reddetme kararından ziyade değişiklikler için test istatistiklerini gözetmek olmalıdır.
russellpierce

Bir HER ZAMAN uygun olan diğer cevaplara değinmeli!
abalter

@ abalter? Ben takip etmiyorum
russellpierce
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.