Ana ilgi alanı olmayan tüm değişkenleri neden log-dönüştürmüyoruz?


10

Kitaplar ve tartışmalar sık ​​sık bir yordayıcıyla (birkaçının olduğu) sorunlarla karşılaştığında, log-dönüşümünün bir olasılık olduğunu belirtir. Şimdi, bunun öngörücülerdeki dağılımlara ve normalliğe bağlı olduğunu anlıyorum, bir gerileme varsayımı değildir; ancak günlük dönüştürme, verileri daha düzenli hale getirir, aykırı değerlerden daha az etkilenir vb.

Ana interesr olmayan tüm sürekli değişkenlerimi, yani sadece ayarladığım değişkenleri günlüğe dönüştürmeyi düşündüm.

Yanlış mı? İyi? Faydasız?

Yanıtlar:


24

Şimdi, bunun öngörücülerdeki dağılımlara ve normalliğe bağlı olduğunu anlıyorum

log dönüştürme verileri daha düzenli hale getirir

Genel bir iddia olarak, bu yanlıştır --- ancak durum böyle olsa bile, tekdüzelik neden önemlidir?

Örneğin,

i) yalnızca 1 ve 2 değerlerini alan bir ikili yordayıcı. Günlükleri almak, yalnızca 0 ve log 2 değerlerini alan ikili bir yordayıcı olarak bırakacaktır. Bu yordayıcıyı içeren terimlerin kesişmesi ve ölçeklenmesi dışında hiçbir şeyi etkilemez. Takılan değerlerde olduğu gibi tahminçinin p değeri bile değişmez.

resim açıklamasını buraya girin

ii) sola eğik bir yordayıcıyı düşünün. Şimdi günlükleri al. Genellikle daha fazla eğriliğe dönüşür.

resim açıklamasını buraya girin

iii) Tekdüze veriler eğriltmeye başlar

resim açıklamasını buraya girin

(yine de her zaman bu kadar aşırı bir değişiklik değildir)

aykırı değerlerden daha az etkilenir

Genel bir iddia olarak, bu yanlıştır. Bir yordayıcıda düşük aykırı değerleri düşünün.

resim açıklamasını buraya girin

Log'u ana ilgi alanı olmayan tüm sürekli değişkenlerimi dönüştürmeyi düşündüm

Hangi sona? Başlangıçta ilişkiler doğrusal olsaydı, artık olmayacaktı.

resim açıklamasını buraya girin

Ve eğer zaten kavisliylerse, bunu otomatik yapmak onları daha iyi değil, daha da kötüleştirebilir (daha kavisli).

-

Bir belirleyicinin günlüklerini almak (birincil ilgi olsun ya da olmasın) bazen uygun olabilir, ancak her zaman böyle değildir.


2
Bu muhteşem cevap için çok teşekkürler. Sanırım çoğumuz, en azından ben, bu şekilde görüntülendiğini görmek zorundaydık. Ancak, sağa eğik verilerin günlük dönüşümüne tabi olması gerektiğine de katılıyor musunuz? Diğer çarpıklıklardan ve formlardan daha fazlası?
Adam Robinsson

1
Genel olarak değil, hayır. Bazı çok özel koşullar altında, belki de.
Glen_b

Kimsenin modelin yorumlanabilirliğinden bahsetmediğini görmek beni de şaşırttı. Eğer bağımlı değişkeni günlüğe kaydederseniz, modeli yorumlamak biraz daha zorlaşır - özellikle sıradanlar veya istatistiksel / matematiksel altyapıları olmayanlar için. Örneğin, gövdenin çevresi inç olarak verildiğinde, bir ağacın yüksekliğini ft olarak tahmin eden bir modeliniz olduğunu varsayalım. Yorumlanması çevresi bir inç artışı için varlık, ağacın ortalama yüksekliği ayağın yarısının günlüğüne artar daha hantal (devam) 'dirβ^=0.50
StatsStudent

Örneğin, gövde çevresi çevresi sayısında bir inçlik bir artış için, ağacın ortalama yüksekliği ayağın yarısı kadar artar. Daha sonra yorumlamak daha kolay ve hesap makinesi olmadan sahada hesaplamak daha kolay.
İstatistikler

10

Kanımca, sadece bunun için günlük dönüşümü (ve bu konuda herhangi bir veri dönüşümü) gerçekleştirmek mantıklı değil. Daha önce belirtildiği gibi, verilere bağlı olarak, bazı dönüşümler geçersiz veya işe yaramaz olacaktır . Çok Aşağıdaki IMHO mükemmel okumanızı tavsiye tanıtıcı materyal üzerinde veri dönüşümü : http://fmwww.bc.edu/repec/bocode/t/transint.html . Lütfen bu belgedeki kod örneklerinin Stata dilinde yazıldığını , ancak aksi halde belgenin yeterince genel olduğunu ve Stata olmayan kullanıcılar için de yararlı olduğunu unutmayın.

Bu makalede , normallik eksikliği , aykırı değerler ve karışım dağılımları gibi veri ile ilgili yaygın problemlerle başa çıkmak için bazı basit teknikler ve araçlar bulunabilir (not, karışım dağılımıyla başa çıkma yaklaşımı olarak tabakalaşmanın büyük olasılıkla en basit olanıdır - buna daha genel ve karmaşık bir yaklaşım , açıklaması bu cevabın kapsamı dışında olan sonlu karışım modelleri olarak da bilinen karışım analizidir ). Box-Cox dönüşümü, yukarıdaki iki referansta kısaca değinilen, özellikle normal olmayan veriler için (bazı uyarılarla) oldukça önemli bir veri dönüşümüdür. Box-Cox dönüşümü hakkında daha fazla bilgi için lütfen bu giriş makalesine bakın .


2
Büyük referanslar Aleksandr. İyi ihtiyaç duyulan sceptisizmi paylaştığınız için teşekkürler. Teşekkürler.
Adam Robinsson

1
@AdamRobinsson: Benim için zevkti, Adam! Cevabımı beğendiğine sevindim.
Aleksandr Blekh

8

Günlük dönüşümü DAİMA işleri daha iyi hale getirmez. Açıkçası, sıfır veya negatif değerlere ulaşan değişkenleri log-dönüşümü yapamazsınız ve sıfırı tutan pozitif olanlar bile log-dönüştürülmüşse negatif aykırı değerlerle ortaya çıkabilir.

Her şeyi rutin olarak günlüğe kaydetmemelisiniz, ancak bir model takmadan önce seçilen olumlu tahmincileri (uygun olarak, genellikle bir günlük ama belki başka bir şey) dönüştürmek hakkında DÜŞÜNMEK iyi bir uygulamadır. Aynı şey yanıt değişkeni için de geçerlidir. Konu bilgisi de önemlidir. Fizik veya sosyolojiden bazı teoriler veya doğal olarak belirli dönüşümlere yol açabilecek her şey. Genellikle, pozitif eğrili değişkenler görürseniz, bir günlük (veya belki bir kare kök veya karşılıklı) yardımcı olabilir.

Bazı regresyon metinleri, herhangi bir dönüşümü düşünmeden önce teşhis alanlarına bakmanız gerektiğini öne sürüyor, ancak katılmıyorum. Herhangi bir modele uymadan önce bu seçimleri yapmak için yapabileceğiniz en iyi işi yapmak daha iyi olur, böylece mümkün olan en iyi başlangıç ​​noktasına sahip olursunuz; oradan ayarlamanız gerekip gerekmediğini görmek için tanılamaya bakın.


Tümü, bu hususların hem önemli hem de önemsiz öngörücüler için geçerli olduğunu da ekliyor.
Russ Lenth

Teşekkürler @rvl! Ben her zaman dönüşümlerin ne zaman ve nasıl seçileceği arasındaki uyumsuzluktan şaşkınım; kitaplar sıklıkla, yazdığınız gibi, regresyona dokunmadan önce tüm değişkenlerin formunu kontrol etmeniz gerektiğini belirtir. Bilgilerinizi sağladığınız için teşekkür ederiz.
Adam Robinsson

@rvl, cevabınız için teşekkür ederim. snoqBu CrossValidated iş parçacığındaki veri kümesini günlük olarak dönüştürür müsünüz (amacın Gaussianların bir karışımını uydurmak olduğunu aklınızda tutarak)?
Zhubarb

-3

1) verileri say (y> 0) -> log (y) veya y = exp (b0 + biXi) 2) verileri say + + (y> = 0) -> engelleme modeli (binom + sayım kaydı) 3) hepsi eşlenik etkiler (& hatalar) toplanır 4) varyans ~ ortalama -> log (y) veya y = exp (b0 + biXi) 5) ...


Bu cevabı okumak zor ve soruyu cevaplamaya çalışıp çalışmadığı belli değil.
Juho Kokkala

1
Telgraf ve formatlanmamış sunum bu cevabı anlaşılmaz kılmaktadır. Fikirlerinizi İngilizce'ye genişletip formüller için kullanabileceğinizi düşünüyor musunuz ? TEX
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.