Kütük dönüşümünün sağa eğik dağılımlarda kullanılmasının nedeni nedir?


18

Bunu bir kez duydum

log dönüşümü, lineer regresyon veya kantil regresyonda sağa eğik dağılımlar için en popüler olanıdır

Bu ifadenin altında yatan herhangi bir sebep olduğunu bilmek isterim? Kütük dönüşümü neden sağa eğik bir dağılım için uygun?

Sola eğik bir dağılıma ne dersiniz?

Yanıtlar:


26

Ekonomistler (benim gibi) günlük dönüşümüne bayılıyorlar. Özellikle regresyon modellerinde bunu seviyoruz, şöyle:

lnYi=β1+β2lnXi+ϵi

Neden bu kadar çok seviyoruz? Burada ders verirken öğrencilere verdiğim nedenlerin listesi:

  1. pozitifliğine saygı duyar . Çoğu zaman ekonomi ve diğer yerlerdeki gerçek dünya uygulamalarında Y , doğası gereği pozitif bir sayıdır. Bu bir fiyat, vergi oranı, üretilen miktar, üretim maliyeti, bazı mal kategorilerine harcama, vb. Olabilir. Dönüştürülmemiş doğrusal regresyondan tahmin edilen değerler negatif olabilir. Bir log-dönüştürülmüş regresyondan tahmin edilen değerler asla negatif olamaz. Bunlar , Y J = exp ( β 1 + β 2 ln x j )1YY(Türev içindaha önceki bir cevababakınız).Y^j=exp(β1+β2lnXj)1Nexp(ei)
  2. Log-log fonksiyonel formu şaşırtıcı derecede esnektir. Uyarı: Bu da bize verir: Bu çok farklı şekiller. Bir çizgi (eğimiexp ( β 1 ) ile belirlenecektir, bu da herhangi bir pozitif eğime sahip olabilir), bir hiperbol, bir parabol ve "kare kökü benzeri" bir şekil. Bunuβ1=0veϵ=0ile çizdim, ancak gerçek bir uygulamada bunların ikisi de doğru olmayacak, böylece eğrilerin eğimi veX=
    lnYi=β1+β2lnXi+ϵiYi=exp(β1+β2lnXi)exp(ϵi)Yi=(Xi)β2exp(β1)exp(ϵi)
    Log-log fonksiyonel formlarını sevmeexp(β1)β1=0ϵ=0 , 1'e ayarlanmak yerine kontrol edilebilir.X=1
  3. TrynnaDoStat'ın bahsettiği gibi, log-log formu büyük değerlere "çekilir", bu da genellikle verilere bakmayı kolaylaştırır ve bazen gözlemler arasındaki varyansı normalleştirir.
  4. katsayısı esneklik olarak yorumlanır. Bu yüzde artış Y bir tek oranında artış X .β2YX
  5. Eğer bir kukla değişkendir, bunu giriş yapmadan dahil. Bu durumda, β 2 yüzde fark olan Y ile X = 1 kategori ve X = 0 kategori.Xβ2YX=1X=0
  6. Eğer bir zaman, yine genellikle, bunu giriş yapmadan dahil. Bu durumda, β 2 büyüme oranıdır Y ne zaman birimleriyle ölçülen --- X ölçülür. Eğer X , yıl sonra katsayısı yıllık büyüme oranı ise Y örneğin.Xβ2YXXY
  7. Eğim katsayısı, , ölçek değişmez hale gelir. Bu, bir yandan biriminin olmadığı ve diğer yandan, X veya Y'yi yeniden ölçeklendirirseniz (yani birimlerini değiştirirseniz) , β tahmini değeri üzerinde kesinlikle hiçbir etkisi olmayacağı anlamına gelir. 2 . En azından OLS ve diğer ilgili tahmin edicilerle.β2XYβ2
  8. Verileriniz günlük olarak normal şekilde dağıtılırsa, günlük dönüşümü bunları normal olarak dağıtır. Normal olarak dağıtılan verilerin onlar için çok şeyleri vardır.

İstatistikçiler genellikle ekonomistleri verilerin bu özel dönüşümü konusunda aşırı hevesli bulurlar. Bence bu, 8. noktamın ve 3. noktamın ikinci yarısının çok önemli olduğuna karar vermeleridir. Bu nedenle, verilerin log-normal olarak dağıtılmadığı veya verilerin kaydedilmesinin, dönüştürülmüş verilerin gözlemler arasında eşit varyansla sonuçlanmadığı durumlarda, bir istatistikçi dönüşümü pek sevmez. İktisatçı büyük olasılıkla ileriye doğru atılıyor çünkü dönüşümle ilgili gerçekten sevdiğimiz şey 1,2 ve 4-7 puanları.


7
Bunlar standart noktalar ama kısa bir şekilde bir araya getirmeleri çok iyi. Birçok hesap bu noktaların sadece bazılarını kapsar. Küçük nokta: Bence iktisatçıların tutumları ile istatistikçilerin tutumları arasındaki karşıtlık biraz abartılı. Örneğin, hata ailesi üzerindeki bağlantının önemi, daha fazla trompetlemeyle yapabilmesine rağmen, genelleştirilmiş doğrusal model literatüründen geçer. Keene, Oliver N. 1995. Kütük dönüşümü özeldir. Tıpta İstatistikler 14: 811-819. DOI: 10.1002 / sim.4780140810 başka bir örnektir.
Nick Cox

21

İlk olarak, doğru eğriliğe sahip bir şeyin günlüklerini aldığımızda tipik olarak ne olacağını görelim.

Üst sıra, giderek farklılaşan üç farklı dağılımdan örnekler için histogramlar içerir.

Alt sıra, günlükleri için histogramlar içerir.

resim açıklamasını buraya girin

Orta kasanın ( y ) simetriye dönüştürüldüğünü, daha hafif sağ eğiklik kasasının ( x ) şimdi biraz eğik olduğunu görebilirsiniz. Diğer yandan, en eğri değişken ( z ) kütükleri aldıktan sonra bile hala (hafif) sağ eğimdir.

Dağılımlarımızın daha normal görünmesini isteseydik, dönüşüm kesinlikle ikinci ve üçüncü durumu iyileştirdi. Bunun yardımcı olabileceğini görebiliriz.


Peki neden çalışıyor?

Dağılım şeklinin bir resmine baktığımızda, sadece eksen üzerindeki etiketleri etkileyen ortalama veya standart sapmayı dikkate almadığımızı unutmayın.

Yani bir çeşit "standartlaştırılmış" değişkenlere bakmayı hayal edebiliriz (pozitif kalırken, hepsinin benzer konumu ve yayılması var, diyelim)

Günlükleri almak, sağa göre (yüksek değerler) orta değerlere göre daha aşırı değerleri "çeker", en soldaki değerler (düşük değerler) ise orta değerden daha uzağa doğru gerilme eğilimindedir.

resim açıklamasını buraya girin

xyz

y

Ama kütükler aldığımızda, tekrar medyana doğru çekilir; günlükleri aldıktan sonra , medyanın üzerinde sadece yaklaşık iki çeyreklik aralık vardır.

y

resim açıklamasını buraya girin

Hem log (750) hem de log (30), log (y) medyanından yaklaşık olarak aynı uzaklıkta olduğunda 750/150 ve 150/30 oranının her ikisinin de 5 olması tesadüf değildir. Günlükler bu şekilde çalışır - sabit oranları sabit farklılıklara dönüştürür.

Günlüğün belirgin bir şekilde yardımcı olacağı her zaman böyle değildir. Örneğin, lognormal rastgele bir değişken söylerseniz ve bunu büyük ölçüde sağa kaydırırsanız (yani büyük bir sabit eklerseniz), ortalama standart sapmaya göre büyük hale gelirse, bunun günlüğünü almak çok az fark yaratacaktır. şekil. Daha az çarpıklık olurdu - ancak zar zor.


Ama diğer dönüşümler - kare kök, diyelim ki - bu şekilde büyük değerler çekecektir. Özellikle günlükler neden daha popüler?

Bir önceki bölümün sonunda sadece bir nedene değindim - sabit oranlar sürekli farklılıklara eğilimlidir. Sabit yüzde değişiklikleri (bir sayı kümesinin her birine% 20 artış gibi) sabit bir kayma haline geldiğinden, bu, günlüklerin yorumlanmasını nispeten kolaylaştırır. Yani bir azalma-0.162 Doğal kütükte, orijinal sayının büyüklüğü ne olursa olsun, orijinal sayılardaki% 15'lik bir azalmadır.

Birçok ekonomik ve finansal veri bu şekilde davranır, örneğin (yüzde ölçeğinde sürekli veya neredeyse sabit etkiler). Günlük ölçeği bu durumda çok mantıklıdır. Ayrıca, bu yüzde-ölçek etkisi sonucu. değerlerin yayılması ortalama arttıkça daha büyük olma eğilimindedir - ve günlükleri almak da yayılımı stabilize etme eğilimindedir. Bu genellikle normallikten daha önemlidir. Aslında, orijinal diyagramdaki her üç dağılım da standart sapmanın ortalama ile artacağı ailelerden gelir ve her durumda günlükleri almak varyansı stabilize eder. [Bu doğru eğri verilerle olmaz. Belirli uygulama alanlarında ortaya çıkan veri türlerinde çok yaygındır.]

Karekökün işleri daha simetrik hale getireceği zamanlar da vardır, ancak buradaki örneklerimde kullandığımdan daha az çarpık dağılımlarla olma eğilimindedir.

(Oldukça kolay bir şekilde), kare kökün bir sola eğik, bir simetrik ve üçüncünün hala sağa eğik (ancak öncekinden biraz daha az eğri) yaptığı üç daha hafif sağ-eğim örneğinden oluşan başka bir set oluşturabiliriz.


Sol eğimli dağılımlar ne olacak?

Eğer günlük dönüşümünü simetrik bir dağılıma uyguladıysanız, aynı nedenden ötürü sola eğriltme eğilimi gösterecektir, bu da genellikle bir sağ simetriyi bir kez daha simetrik yapar - ilgili tartışmaya buradan bakın .

Buna karşılık, eğer log-dönüşümü zaten eğriltilmiş bir şeye uygularsanız, daha da fazla sol eğim yapar, medyanın üstündeki şeyleri daha sıkı bir şekilde çeker ve medyanın altındaki şeyleri daha da zorlaştırır.

Yani günlük dönüşümü o zaman yardımcı olmaz.

Ayrıca bkz. Güç dönüşümleri / Tukey merdiveni. Çarpık bırakılan dağılımlar, bir güç alarak (1'den büyük kareler sözde) veya üslenerek daha simetrik hale getirilebilir. Açık bir üst sınırı varsa, gözlemler üst sınırdan çıkarılabilir (sağ çarpık bir sonuç verir) ve daha sonra bunu dönüştürmeye çalışabilir.


Bu mükemmel cevap için Glen_b teşekkür ederiz. Bize bu dönüşümün neden / nasıl çalıştığına dair ampirik veriler verip ardından sezgisel bir açıklama yapıyorsunuz. Çok takdir etmek.
Ram

5

Log fonksiyonu aslında çok büyük değerleri vurgular. Aşağıdaki resme bakıny=ln(x). Değerlerin ne kadar büyük olduğuna dikkat edin.xekseni y ekseninde nispeten daha küçüktür.

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Şimdi, sağa eğik bir dağılımda birkaç çok büyük değeriniz var. Günlük dönüşümü esasen bu değerleri dağılımın merkezine yuvarlar ve bu da normal bir dağılım gibi görünmesini sağlar.


1

Tüm bu cevaplar doğal kütük dönüşümü için satış konuşmalarıdır. Kullanımı için uyarılar, herhangi bir ve tüm dönüşümler için genelleştirilebilen uyarılar vardır. Genel bir kural olarak, tüm matematiksel dönüşümler, sıkıştırma, genişletme, tersine çevirme, yeniden ölçeklendirme gibi her ne olursa olsun temel ham değişkenlerin PDF'sini yeniden şekillendirir. Bunun tamamen pratik bir bakış açısından ortaya koyduğu en büyük zorluk, öngörülerin anahtar bir model çıktısı olduğu regresyon modellerinde kullanıldığında, bağımlı değişken Y-hat'ın dönüşümleri, potansiyel olarak önemli yeniden dönüşüm yanlılığına maruz kalır. Doğal günlük dönüşümlerinin bu önyargıya karşı bağışık olmadığını, diğer benzer hareket dönüşümlerinden de etkilenmediğini unutmayın. Bu önyargı için çözümler sunan makaleler var ama gerçekten çok iyi çalışmıyorlar. Bence, Y'yi hiç dönüştürmeye çalışmakla ve orijinal metriği korumanıza izin veren sağlam fonksiyonel formlar bulmakla uğraşmaktan çok daha güvenli bir zemindesiniz . Örneğin, doğal kütüğün yanı sıra, ters hiperbolik sinüs veya Lambert W gibi çarpık ve kurtotik değişkenlerin kuyruğunu sıkıştıran başka dönüşümler de vardır.. Bu dönüşümlerin her ikisi de simetrik PDF'lerin ve dolayısıyla Gauss benzeri hataların ağır kuyruklu bilgilerden üretilmesinde çok iyi çalışır, ancak tahminleri DV, Y için orijinal ölçeğe geri getirmeye çalıştığınızda önyargıya dikkat edin . Çirkin olabilir.


3
Bu, ağır kuyruklu dağılımlarla ne yapılması gerektiğine odaklanmış gibi görünüyor (kurtotik ile yüksek basıklık demek istediniz). Bence bunun soru ile nasıl ilişkili olduğunu açıklamanız gerekiyor. Benzer şekilde Lambert nasılWsoru ile ilgili net değil. Dönüşüm yanlılığının, logaritmik dönüşüm için, bu açıdan olduğu gibi ilgili dönüşümlere (hangileri?) Göre daha az olası bir sorun olduğunu anlamıyorum ve diğerlerinde logaritmik, daha geniş bir ailenin üyesi olarak beklediğiniz gibi davranıyor, çünkü örneğin, karekök ile karşılıklı arasındaki ara etkili olma.
Nick Cox

3
Hepimiz kuralların çeşitli yönlerinde sürtüşüyoruz, ancak çoğumuz burada etkileşime devam ediyoruz, çünkü onların bilgeliğini görmeye geldik ve görünen kısıtlamalar üzerinde çalışmak için yapıcı yollar bulduk. Bu kural esastır: bir soruyu cevaplamayan bir gönderi ait değildir. Her bir ipliği tutarlı, sınırlı, temiz ve konu üzerinde tutma eğilimindedir. Diğer soru-cevap sitelerinde bulabileceğinizden daha yararlı ve ilginç olma eğilimi gösteren bir materyal oluşturmak çok önemlidir.
whuber

3
Bununla uğraştınız ama benim görüşüme göre bir cevap olarak çok sorunlu. 1. Soruyu çeşitli şekillerde genişletiyorsunuz, örneğin ağır kuyruklu dağılımlar da getirerek. Bu, bazı ipliklerde yapılması makul bir şey olabilir, ancak burada yüksek kaliteli cevaplara sahip iyi odaklanmış bir iplik var ve buradaki ekstra cevap, suların büyük ölçüde çamurlanmasıdır. Bir soruya mevcut iyi cevaplar olduğunda, yeni bir cevap için gerçekten iyi bir neden olmalıdır.
Nick Cox

4
2. Dönüşüm yanlılığına ilişkin iddialar kol sallıyor; bu günlüğün diğer benzer dönüşümlerden daha az sorunlu olduğu gizemli iddiası da dahil olmak üzere, iddialarla eşleşen cevapta teknik bir hassasiyet yoktur.
Nick Cox

4
3. Lambert's hakkında detay Wşifreli kalır. Daha genel olarak, asinh ve Lambert'in iyi olabilmesi dışında dönüşümlerin şüpheli olduğu. Bu çelişkili görünüyor ve iyi açıklanmamış. Açıkça çok bilgilisiniz, ancak bunun değerli olması için daha düz bir açıklayıcı stile ihtiyacı var. Bu yüzden bunu iyi vicdanla değerlendiremem. Daha önceki kaldırma kararınız bana göre daha iyiydi. Burada ve başka yerlerde, CV stilini yakaladığınızı sanmıyorum: katı bir reçete yok, ancak cevapların odaklanması gerekiyor; konuşkan, söylemsel yayınlar genellikle iyi uymuyor.
Nick Cox

0

Birçok ilginç noktaya değinildi. Biraz daha?

1) Doğrusal regresyon ile ilgili bir diğer sorunun regresyon denkleminin 'sol tarafının' E (y): beklenen değer olmasıdır. Hata dağılımı simetrik değilse, beklenen değerin incelenmesinin esası zayıftır. Hatalar asimetrik olduğunda beklenen değer önemli değildir. Bunun yerine kantil regresyon keşfedilebilir. Daha sonra, örneğin medyan veya diğer yüzde noktalarının incelenmesi, hatalar asimetrik olsa bile layık olabilir.

2) Yanıt değişkeni dönüştürülmeyi seçerse, açıklayıcı değişkenlerden daha fazlasını aynı işlevle dönüştürmek isteyebilirsiniz. Örneğin, yanıt olarak 'nihai' bir sonuç varsa, açıklayıcı değişken olarak 'temel' bir sonuç elde edilebilir. Yorumlamada, aynı fonksiyonla 'nihai' ve 'taban çizgisi' dönüşümünün yapılması anlamlıdır.

3) Açıklayıcı bir değişkeni dönüştürmenin temel argümanı genellikle yanıt - açıklayıcı ilişkinin doğrusallığı üzerinedir. Bu günlerde, açıklayıcı değişken için kısıtlı kübik spline'lar veya fraksiyonel polinomlar gibi diğer seçenekler düşünülebilir. Yine de doğrusallığın bulunup bulunmadığı kesinlikle belli bir açıklığa sahiptir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.