Yanıtlar:
Ekonomistler (benim gibi) günlük dönüşümüne bayılıyorlar. Özellikle regresyon modellerinde bunu seviyoruz, şöyle:
Neden bu kadar çok seviyoruz? Burada ders verirken öğrencilere verdiğim nedenlerin listesi:
İstatistikçiler genellikle ekonomistleri verilerin bu özel dönüşümü konusunda aşırı hevesli bulurlar. Bence bu, 8. noktamın ve 3. noktamın ikinci yarısının çok önemli olduğuna karar vermeleridir. Bu nedenle, verilerin log-normal olarak dağıtılmadığı veya verilerin kaydedilmesinin, dönüştürülmüş verilerin gözlemler arasında eşit varyansla sonuçlanmadığı durumlarda, bir istatistikçi dönüşümü pek sevmez. İktisatçı büyük olasılıkla ileriye doğru atılıyor çünkü dönüşümle ilgili gerçekten sevdiğimiz şey 1,2 ve 4-7 puanları.
İlk olarak, doğru eğriliğe sahip bir şeyin günlüklerini aldığımızda tipik olarak ne olacağını görelim.
Üst sıra, giderek farklılaşan üç farklı dağılımdan örnekler için histogramlar içerir.
Alt sıra, günlükleri için histogramlar içerir.
Orta kasanın ( ) simetriye dönüştürüldüğünü, daha hafif sağ eğiklik kasasının ( ) şimdi biraz eğik olduğunu görebilirsiniz. Diğer yandan, en eğri değişken ( ) kütükleri aldıktan sonra bile hala (hafif) sağ eğimdir.
Dağılımlarımızın daha normal görünmesini isteseydik, dönüşüm kesinlikle ikinci ve üçüncü durumu iyileştirdi. Bunun yardımcı olabileceğini görebiliriz.
Peki neden çalışıyor?
Dağılım şeklinin bir resmine baktığımızda, sadece eksen üzerindeki etiketleri etkileyen ortalama veya standart sapmayı dikkate almadığımızı unutmayın.
Yani bir çeşit "standartlaştırılmış" değişkenlere bakmayı hayal edebiliriz (pozitif kalırken, hepsinin benzer konumu ve yayılması var, diyelim)
Günlükleri almak, sağa göre (yüksek değerler) orta değerlere göre daha aşırı değerleri "çeker", en soldaki değerler (düşük değerler) ise orta değerden daha uzağa doğru gerilme eğilimindedir.
Ama kütükler aldığımızda, tekrar medyana doğru çekilir; günlükleri aldıktan sonra , medyanın üzerinde sadece yaklaşık iki çeyreklik aralık vardır.
Hem log (750) hem de log (30), log (y) medyanından yaklaşık olarak aynı uzaklıkta olduğunda 750/150 ve 150/30 oranının her ikisinin de 5 olması tesadüf değildir. Günlükler bu şekilde çalışır - sabit oranları sabit farklılıklara dönüştürür.
Günlüğün belirgin bir şekilde yardımcı olacağı her zaman böyle değildir. Örneğin, lognormal rastgele bir değişken söylerseniz ve bunu büyük ölçüde sağa kaydırırsanız (yani büyük bir sabit eklerseniz), ortalama standart sapmaya göre büyük hale gelirse, bunun günlüğünü almak çok az fark yaratacaktır. şekil. Daha az çarpıklık olurdu - ancak zar zor.
Ama diğer dönüşümler - kare kök, diyelim ki - bu şekilde büyük değerler çekecektir. Özellikle günlükler neden daha popüler?
Bir önceki bölümün sonunda sadece bir nedene değindim - sabit oranlar sürekli farklılıklara eğilimlidir. Sabit yüzde değişiklikleri (bir sayı kümesinin her birine% 20 artış gibi) sabit bir kayma haline geldiğinden, bu, günlüklerin yorumlanmasını nispeten kolaylaştırır. Yani bir azalma Doğal kütükte, orijinal sayının büyüklüğü ne olursa olsun, orijinal sayılardaki% 15'lik bir azalmadır.
Birçok ekonomik ve finansal veri bu şekilde davranır, örneğin (yüzde ölçeğinde sürekli veya neredeyse sabit etkiler). Günlük ölçeği bu durumda çok mantıklıdır. Ayrıca, bu yüzde-ölçek etkisi sonucu. değerlerin yayılması ortalama arttıkça daha büyük olma eğilimindedir - ve günlükleri almak da yayılımı stabilize etme eğilimindedir. Bu genellikle normallikten daha önemlidir. Aslında, orijinal diyagramdaki her üç dağılım da standart sapmanın ortalama ile artacağı ailelerden gelir ve her durumda günlükleri almak varyansı stabilize eder. [Bu doğru eğri verilerle olmaz. Belirli uygulama alanlarında ortaya çıkan veri türlerinde çok yaygındır.]
Karekökün işleri daha simetrik hale getireceği zamanlar da vardır, ancak buradaki örneklerimde kullandığımdan daha az çarpık dağılımlarla olma eğilimindedir.
(Oldukça kolay bir şekilde), kare kökün bir sola eğik, bir simetrik ve üçüncünün hala sağa eğik (ancak öncekinden biraz daha az eğri) yaptığı üç daha hafif sağ-eğim örneğinden oluşan başka bir set oluşturabiliriz.
Sol eğimli dağılımlar ne olacak?
Eğer günlük dönüşümünü simetrik bir dağılıma uyguladıysanız, aynı nedenden ötürü sola eğriltme eğilimi gösterecektir, bu da genellikle bir sağ simetriyi bir kez daha simetrik yapar - ilgili tartışmaya buradan bakın .
Buna karşılık, eğer log-dönüşümü zaten eğriltilmiş bir şeye uygularsanız, daha da fazla sol eğim yapar, medyanın üstündeki şeyleri daha sıkı bir şekilde çeker ve medyanın altındaki şeyleri daha da zorlaştırır.
Yani günlük dönüşümü o zaman yardımcı olmaz.
Ayrıca bkz. Güç dönüşümleri / Tukey merdiveni. Çarpık bırakılan dağılımlar, bir güç alarak (1'den büyük kareler sözde) veya üslenerek daha simetrik hale getirilebilir. Açık bir üst sınırı varsa, gözlemler üst sınırdan çıkarılabilir (sağ çarpık bir sonuç verir) ve daha sonra bunu dönüştürmeye çalışabilir.
Log fonksiyonu aslında çok büyük değerleri vurgular. Aşağıdaki resme bakın. Değerlerin ne kadar büyük olduğuna dikkat edin.ekseni y ekseninde nispeten daha küçüktür.
Şimdi, sağa eğik bir dağılımda birkaç çok büyük değeriniz var. Günlük dönüşümü esasen bu değerleri dağılımın merkezine yuvarlar ve bu da normal bir dağılım gibi görünmesini sağlar.
Tüm bu cevaplar doğal kütük dönüşümü için satış konuşmalarıdır. Kullanımı için uyarılar, herhangi bir ve tüm dönüşümler için genelleştirilebilen uyarılar vardır. Genel bir kural olarak, tüm matematiksel dönüşümler, sıkıştırma, genişletme, tersine çevirme, yeniden ölçeklendirme gibi her ne olursa olsun temel ham değişkenlerin PDF'sini yeniden şekillendirir. Bunun tamamen pratik bir bakış açısından ortaya koyduğu en büyük zorluk, öngörülerin anahtar bir model çıktısı olduğu regresyon modellerinde kullanıldığında, bağımlı değişken Y-hat'ın dönüşümleri, potansiyel olarak önemli yeniden dönüşüm yanlılığına maruz kalır. Doğal günlük dönüşümlerinin bu önyargıya karşı bağışık olmadığını, diğer benzer hareket dönüşümlerinden de etkilenmediğini unutmayın. Bu önyargı için çözümler sunan makaleler var ama gerçekten çok iyi çalışmıyorlar. Bence, Y'yi hiç dönüştürmeye çalışmakla ve orijinal metriği korumanıza izin veren sağlam fonksiyonel formlar bulmakla uğraşmaktan çok daha güvenli bir zemindesiniz . Örneğin, doğal kütüğün yanı sıra, ters hiperbolik sinüs veya Lambert W gibi çarpık ve kurtotik değişkenlerin kuyruğunu sıkıştıran başka dönüşümler de vardır.. Bu dönüşümlerin her ikisi de simetrik PDF'lerin ve dolayısıyla Gauss benzeri hataların ağır kuyruklu bilgilerden üretilmesinde çok iyi çalışır, ancak tahminleri DV, Y için orijinal ölçeğe geri getirmeye çalıştığınızda önyargıya dikkat edin . Çirkin olabilir.
Birçok ilginç noktaya değinildi. Biraz daha?
1) Doğrusal regresyon ile ilgili bir diğer sorunun regresyon denkleminin 'sol tarafının' E (y): beklenen değer olmasıdır. Hata dağılımı simetrik değilse, beklenen değerin incelenmesinin esası zayıftır. Hatalar asimetrik olduğunda beklenen değer önemli değildir. Bunun yerine kantil regresyon keşfedilebilir. Daha sonra, örneğin medyan veya diğer yüzde noktalarının incelenmesi, hatalar asimetrik olsa bile layık olabilir.
2) Yanıt değişkeni dönüştürülmeyi seçerse, açıklayıcı değişkenlerden daha fazlasını aynı işlevle dönüştürmek isteyebilirsiniz. Örneğin, yanıt olarak 'nihai' bir sonuç varsa, açıklayıcı değişken olarak 'temel' bir sonuç elde edilebilir. Yorumlamada, aynı fonksiyonla 'nihai' ve 'taban çizgisi' dönüşümünün yapılması anlamlıdır.
3) Açıklayıcı bir değişkeni dönüştürmenin temel argümanı genellikle yanıt - açıklayıcı ilişkinin doğrusallığı üzerinedir. Bu günlerde, açıklayıcı değişken için kısıtlı kübik spline'lar veya fraksiyonel polinomlar gibi diğer seçenekler düşünülebilir. Yine de doğrusallığın bulunup bulunmadığı kesinlikle belli bir açıklığa sahiptir.