Log ölçekleri ne zaman uygun olur?


57

Zaman çizelgesi grafiğindeki y ekseni gibi, belirli durumlarda çizelgeleme / grafik oluşturma uygun olduğunda günlük ölçeklerini kullanmanın okudum. Ancak, bunun neden böyle olduğu veya ne zaman uygun olacağı konusunda kesin bir açıklama bulamadım. Lütfen aklınızda bulundurun, istatistikçi değilim, bu yüzden noktayı tamamen kaybediyor olabilirim ve eğer durum buysa, iyileştirici kaynakların yönünü takdir ediyorum.


10
Bu resmi bir cevap değildir, ancak bir değişken birkaç büyüklük derecesine sahip olduğunda, gözlerde (ve daha fazla bilgi verici) günlük ölçeğinde görselleştirmek genellikle daha kolaydır.
Makro

Makro-bu iyi bir anlam ifade ediyor (özellikle onu anlayabilen bir kitleniz olduğunda!)
dav

1
Belirli bir yanıt beklerken, bu konuyla yakından ilişkili kullanım konularını bulabilirsiniz: stats.stackexchange.com/questions/298 . Grafik olarak "bağımlı değişkeni" verimli bir şekilde "y ekseni" olarak yorumlayabilirsiniz. Ardından, burada ortaya çıkan pek çok ilgili soruyu inceleyin .
whuber

3
Ayrıca FYI Naomi Robbins'in de konuyla ilgili çok basit bir makalesi var. Ayrıca, Grafiklerimde ve Grafiklerde Logaritmik Ölçekleri Ne Zaman Kullanmalıyım? .
Andy W,

Whuber, ekstra bağlantıları gösterdiğin için teşekkürler. Bunlardan bazılarını görmüştüm, ama hepsini değil ve şimdi onlarla yoluma gidiyorum.
dav

Yanıtlar:


51

Bu çok ilginç bir soru ve çok az insanın düşündüğü bir soru. Günlük ölçeğinin uygun olabileceği birkaç farklı yol vardır. İlk ve en iyi bilinenleri, Macro tarafından yorumunda belirtilenler: log skalaları, küçük değerler grafiğin altına sıkıştırılmadan geniş bir aralığın görüntülenmesine izin verir.

Bir log ölçeklendirmeyi tercih etmenin farklı bir nedeni, verilerin daha doğal olarak geometrik olarak ifade edildiği durumlardır. Bir örnek, verinin biyolojik bir arabulucu konsantrasyonunu temsil etmesidir. Konsantrasyonlar negatif olamaz ve değişkenlik neredeyse değişmez bir şekilde ortala ölçeklenir (yani heteroscedastik varyans vardır). Logaritmik bir ölçek kullanmak veya eşdeğer olarak, günlük konsantrasyonunu birincil olarak kullanmak, ölçü hem eşit olmayan değişkenliği “düzeltir” ve her iki uçta da sınırlandırılmamış bir ölçek verir. Konsantrasyonlar muhtemelen kütük-normal dağılıma sahiptir ve bu nedenle kütük ölçeklendirme bize tartışmasız 'doğal' olan çok uygun bir sonuç verir. Farmakolojide, ilaç konsantrasyonları için olduğundan çok daha sık bir logaritmik ölçek kullanıyoruz.

Büyük olasılıkla zaman serisi verileriyle ilgilendiğiniz bir günlük ölçeğinin bir başka iyi nedeni, bir günlük ölçeğinin kesirli değişiklikleri eşdeğer hale getirme yeteneğinden kaynaklanmaktadır. Emeklilik yatırımlarınızın uzun vadeli performansının bir görüntüsünü hayal edin. Kabaca üssel olarak büyüyor olmalı, çünkü yarının ilgisi bugünün yatırımına (kabaca konuşmaya bağlı) bağlı. Dolayısıyla, yüzde cinsinden performans oldukça sabit olsa bile, fonların bir grafiği sağ tarafta en hızlı şekilde büyüdüğü görülecektir. Logaritmik bir skala ile sabit bir yüzde değişim sabit bir dikey mesafe olarak görülür, böylece sabit bir büyüme hızı düz bir çizgi olarak görülür. Bu genellikle önemli bir avantajdır.

Bir log ölçeği seçmenin biraz daha ezoterik nedeni, değerlerin makul bir şekilde x veya 1 / x olarak ifade edilebildiği durumlarda ortaya çıkar. Kendi araştırmamdan bir örnek, karşılıklı, vasküler iletkenlik olarak da hassas bir şekilde ifade edilebilen vasküler dirençtir. (Bazı durumlarda, direnç veya iletkenlik gücü olarak ölçeklenen kan damarlarının çapını düşünmek de mantıklıdır.) Bu önlemlerin hiçbiri diğerinden daha fazla gerçekliğe sahip değildir ve her ikisi de araştırma makalelerinde bulunamaz. Logaritmik olarak ölçeklendirilirlerse, o zaman birbirlerinin negatifleri olurlar ve birinin ya da diğerinin seçimi şüpheli bir fark yaratmazlar. (Vasküler çap, hepsi kütük ölçeklendiğinde sabit bir çarpan ile direnç ve iletkenlikten farklı olacaktır.)


Harika cevap için teşekkürler! Yine de, "değerler makul bir şekilde x olarak ifade edilebilir" hakkında ayrıntılı bilgi verebilir misiniz?
ktdrv

4
@ktdrv Bazı şeyler her iki yönde de mantıklı geliyor. Bir balıkçı yeteneğini belgelemek istediğinizi söyleyin. Günde yakalanan balık sayısını sayabilir veya ardışık avlar arasındaki süreyi ölçebilirsiniz. Her iki ölçüm de anlamlıdır ancak bunlar birbirleriyle doğrusal değildir. Onlar birbirlerinin ölçeklendirilmiş karşılıklılarıdır ve bire bir diğerine dönüştürülebilirler. Aralığın günlüğü ve günlük sayının günlüğü birbirleriyle doğrusal olarak ilişkilidir ve sabit (negatif) bir faktöre göre farklılık gösterir.
Michael Lew,

1
Michael, cevabın için teşekkürler. İtiraf etmeliyim ki, tüm puanlarınızı gözden geçirmek biraz zaman aldı (ve "heteroscedastic varyans" gibi bir kaç terim google'da bulunmak zorunda kaldı). Hala cevabın gerçek etkisinin işim için ne anlama geldiğini bir araya getirmeye devam ediyorum, ancak genel bir yön ve bana yol göstermesi için bazı yönergeler için minnettarım.
dav

x1/xlog(x)x1/x x1/xx1/x

pH=log[H+]

29

Bazı gerçek yaşam örnekleri @Michael Lew'in çok iyi cevabına ek olarak vermem gerekiyordu.

İlk olarak, aşağıdaki iki zaman serisi, Yeni Zelanda'ya İstatistikler Yeni Zelanda'dan gelen aylık ziyaretçi sayısını göstermektedir . Her iki alanın da kendi amaçları var, ancak dikey eksenli olanı, birinciden çok daha fazla amaç için olağanüstü kullanışlı bir logaritmik ölçekte buluyorum. Örneğin, gelenlerdeki mevsimselliklerin gelenlerin ölçeğiyle kabaca orantılı kaldığını görebilirsiniz; ve büyüme oranındaki (örneğin, ikinci dünya savaşı sırasında) orijinal ölçekte görünmeyen önemli değişiklikleri görebilirsiniz.

görüntü tanımını buraya girin

İkincisi, aşağıdaki grafikler, turistlerin Yeni Zelanda’da geçirdikleri harcamaya oranla turistlerin Yeni Zelanda’ya yaptıkları gezi ile ilgili toplam harcamaları göstermektedir. Kaynak, Ekonomik Kalkınma Bakanlığı tarafından yapılan Uluslararası Ziyaretçi Araştırması . Aradaki fark gezi öncesi harcamalar, örneğin önceden ödenen oteller veya paketler. İlk ölçek, orijinal ölçekte, sol alt köşede gruplandırılmış verilerin çok kaba (ancak önemli) bir izleniminden başka birkaç amaç için kullanılabilir. İkinci arsa, özellikle istatistikçi olmayanlar için bazı anlık yorumlanabilirlikten fedakarlık eder (bundan dolayı normalde şimdi verileri dönüştürmek yerine, eksenler üzerinde logaritmik bir ölçek kullanırdım, ama çok fazla veri veririm) daha görsel farklılaşma.

Örneğin, toplam harcamanın Yeni Zelanda'daki harcamadan daha az olduğu birkaç aykırı (veri düzenleme hatası olduğu ortaya çıkmıştır) açıkça fark edebilirsiniz. Belki daha da önemlisi, farklı pazar ülkelerinin veya ziyaret amaçlarının (örneğin, tatil v. Arkadaşları ve aileleri ziyaret etmenin) harcama "alanı" nın farklı kısımlarını nasıl işgal ettiğini - sadece görünmeyecek bir şeyi - göstermek için bu grafiği farklı renkler veya faset ile birlikte kullanabilirsiniz. Orijinal eksenlerde.

Bu grafiği yararlı bir şeye dönüştürmek bir şekilde yüksek yoğunluklu verilerle uğraşmayı (örneğin noktalara biraz saydamlık ekleyerek veya noktaları yoğunluğa göre renklendirilmiş altıgen kutularla değiştirerek) içerir, ancak faydalı görsel çözümler neredeyse kesinlikle logaritmik eksenleri içerecektir.

görüntü tanımını buraya girin

düzenleme / ekleme

Altıgen kutularla ne demek istediğimi göstermek için başka bir komplo, büyük bir veri kümesi olduğunda yoğunluğu temsil etmek için renk kullanarak (bu durumda, Yeni Zelanda'daki Rugby Dünya Kupası deneyimleri hakkında bir ankete yaklaşık 12000 kişi cevap verdi). Yine, bu, harcama için logaritmik bir ölçek kullandığım başka bir örnektir.

görüntü tanımını buraya girin


Peter, ek bilgi için teşekkürler - grafikler gerçekten puanlarınızı anlamanıza yardımcı oluyor. Bir takip sorusu (eğer bu kadar eğik iseniz), neden noktaları "altıgen" bidonlarla değiştirdiniz? Bu "Ayçiçeği Arazileri" ile aynı fikir midir? Bu terimi daha önce duymamıştım.
dav

Hayır, ayçiçeği parsellerinden farklı. Önemli olan, çizim alanını altıgen kutulara bölmek ve daha sonra her bir kutudaki kaç nokta olduğuna göre onları renklendirmek (örneğin açıktan koyuya). Başka türlü siyah kütlelerine dönüşme eğiliminde olan büyük veri kümelerini çizmenin etrafından dolaşmanın iyi bir yolu olabilir.
Peter Ellis,

@DavidVandenbos - Bir örnek ekledim
Peter Ellis

(yorumun geri kalanı) @PeterEllis Açıklama için teşekkürler. Verileri görselleştirmenin harika bir yolu - kullandığım coğrafi ısı haritalarına çok benziyor. Bunu R'de mi yarattın?
dav

Evet, R, ggplot2 paketini kullanmak - bu amaç için çok iyi ve temelleri öğrendikten sonra oldukça kolay.
Peter Ellis,

9

Tomruk ölçekleriyle ilgili diğer bir güzel şey ise oranların simetrik görünmesidir. Örneğin, bunun gibi: görüntü tanımını buraya girin


9
Karşılaştırma için aynı arsayı doğrusal bir ölçekte görmek güzel olurdu
nico
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.