Aşırı çarpık dağılımları dönüştürme


13

Dağılımını çok yüksek bir dereceye kadar eğriltmiş bir değişkenim olduğunu varsayalım, böylece günlük almak, normal dağılım için eğrilik aralığı içine getirmek için yeterli olmayacaktır. Bu noktada seçeneklerim neler? Değişkeni normal bir dağılıma dönüştürmek için ne yapabilirim?


2
Emin olmak için, "çarpık negatif" sola veya sağa işaret eden uzun kuyruk anlamına mı geliyor? Eğer gerçekten çarpıksa (uzun kuyruk kaldı), log-dönüşümü pek işe yaramazdı.
Penguin_Knight

6
Karşılıklı dönüşüm logaritmikten daha güçlüdür ve ölçüm birimleri sadece ters çevrildiği için genellikle anlamı korur. Örneğin, bir şey yapmak için zamanın karşılıklılığı bir tür hızdır, ya da tam tersi. Galon başına mil veya litre başına km karşılığı mantıklıdır. Karşılıklar siparişi tersine çevirir ve tercih edilirse reddedilebilir. Doğal olarak Box-Cox şemasının bir parçası ve bu ekstra ayrıntı. Bunun iyi çalışması için tüm değerler pozitif olmalıdır. (Prensip olarak, negatif tüm değerlerle çalışır, ancak pratikte henüz bir örnek görmedim.)
Nick Cox

2
@Aksakal İyi bir fikir olarak göremiyorum. Sonuç, sadece değerleri için istatistiksel olarak anlamlıdır . Değerler sayılırsa, bu değerlerin verilerde gerçekleşip gerçekleşmediğine bakılmaksızın, bir dönüşümün 0s veya 1s için tanımsız olması yapaydır. Değerler ölçümse, kısıtlama, bir dönüşümün geçerliliğinin, cm kullandığım için yapılamıyormuş gibi saçma olan ölçü birimleri seçimine bağlı olduğu anlamına gelir , ancak yapılabilir çünkü mm kullanıyorum. (Bu logaritmalar, istatistiksel olarak yardımcı olduğunu düşünmediğim olumsuz argümanlar için karmaşık sonuçlar verir.)> 1 ln ( ln ( 0,7 ) ) ln ( ln ( 7 ) )ln(ln())>1ln(ln(0.7))ln(ln(7))
Nick Cox

2
@Aksakal "Log dönüşümü çarpıklığı tedavi etmek için bir araç değil" demek için çok güçlü: eğer çarpıklık tek sorunsa, günlükler genellikle çok iyi çalışır. Demek istediğin, marjinal dağılımların çarpıklığının büyük bir sorun olması gerekmiyorsa, aynı fikirdeyim.
Nick Cox

3
Doğal olarak katılıyorum, ancak kareler veya logaritmalar kullansaydım, referanslar vermek zorunda kalmazdım ve benzer şekilde burada. Ancak karşılıklılıkların, özellikle zamanların ve hızların yararlılığı, (örn.) Tukey, JW 1977 tarafından vurgulanmıştır. Keşifsel veri analizi. Reading, MA: Addison-Wesley ve birkaç makalesinde. Galon başına mil ve mil başına galon (veya km başına ters litre ve litre başına km) otomobil performans verilerinin tartışılmasında yaygın bir yerdir. Yoğunluklar ve karşılıkları coğrafya ve demografide oldukça standart örneklerdir.
Nick Cox

Yanıtlar:


13

Box, GEP ve Cox, DR (1964), "Dönüşümlerin Analizi," Kraliyet İstatistik Kurumu Dergisi, Seri B , 26, 211-234'e göre düz Box-Cox dönüşümünü deneyin . SAS yılında log benzeri fonksiyonu açıklaması vardır Normalleştirici Dönüşümler bulmak için kullanabileceğiniz en uygun parametre, Atkinson, AC (1985), tarif edildiği Arsalar, Dönüşümler ve Regresyon , New York: Oxford University Press.λ

LL işlevine sahip olması çok kolaydır veya SAS veya MATLAB gibi bir istatistik paketiniz varsa komutlarını kullanın: MATLAB'da boxcox komutu ve SAS'ta PROC TRANSREG .

Ayrıca, R'de bu MASS paketinde boxcox () işlevini kullanır.


5

Pozitif çarpıklık için (kuyruk x ekseninin pozitif ucundadır), kare kök dönüşümü, log dönüşümü ve ters / karşılıklı dönüşüm (artan ciddiyet sırasına göre) vardır. Böylece, günlük dönüşümü yeterli değilse, bir sonraki dönüşüm düzeyini kullanabilirsiniz. Box Cox tüm dönüşümleri otomatik olarak çalıştırır, böylece en iyisini seçebilirsiniz.


-5

Çoğu yazılım paketi Euler numarasını varsayılan günlük tabanı olan AKA: natural log olarak kullanır. Aşırı sağa eğik verileri dizginlemek için daha yüksek bir taban numarası kullanabilirsiniz. Sözdizimi olarak nasıl yapacağınız kullandığınız yazılıma bağlıdır.

Tahminler yapıldıktan sonra dönüştürülmüş değerlerinizden çıkmanız gerekirse, bu yöntemi kullanmak biraz daha kolay olabilir, çünkü yapmanız gereken tek şey, günlük tabanınız ne olursa olsun değişkeninizde üstel bir işleç yapmaktır.


6
Bu hiçbir şekilde anlam ifade etmiyor. İki farklı tabana logaritmalar sadece çarpma sabiti ile farklılık gösterir ve bu nedenle her ikisiyle çarpıklık azalması aynıdır. Böylece 1 10 100 1000 10000, log tabanı 10 dönüştürüldükten sonra simetriktir ve log tabanı veya log tabanı 2'den sonra simetrik olacaktır . Tek fark bir ölçeklendirme faktörüdür. e
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.