Görselleştirme, verileri dönüştürmek için yeterli bir gerekçe mi?


13

Sorun

30 parametrenin her biri tarafından açıklanan varyansı, örneğin her parametre için farklı bir çubuğa sahip bir barplot ve y eksenindeki varyansı çizmek istiyorum:

alternatif metin

Bununla birlikte, varyanslar, aşağıdaki histogramda görülebileceği gibi, 0 dahil olmak üzere küçük değerlere doğru eğrilir:

alternatif metin

Bunları , küçük değerler (aşağıdaki histogram ve çubuk grafik) arasındaki farkları görmek daha kolay olacaktır:log(x+1)

alternatif metinalternatif metin

Soru

log(x+1)

Yanıtlar:


13

Buna bazıları tarafından " başlatılmış logaritma " denir ( örneğin , John Tukey). (Bazı örneklerde, Google john tukey "günlüğü başlattı" .)

Kullanımı gayet iyi. Aslında, bağımlı değişkenin yuvarlanmasını hesaba katmak için sıfır olmayan bir başlangıç ​​değeri kullanmak zorunda kalabilirsiniz. Örneğin, bağımlı değişkeni en yakın tamsayıya yuvarlamak, gerçek varyansının 1 / 12'sini etkili bir şekilde durdurur ve makul bir başlangıç ​​değerinin en az 1/12 olması gerektiğini gösterir. (Bu değer, bu verilerle kötü bir iş yapmaz. 1'in üzerindeki diğer değerlerin kullanılması resmi gerçekten fazla değiştirmez; sadece sağ alt grafikteki tüm değerleri neredeyse eşit bir şekilde yükseltir.)

Varyansı değerlendirmek için logaritmayı (veya başlangıç ​​logunu) kullanmanın daha derin nedenleri vardır: örneğin, bir log-log ölçeğindeki tahmini bir varyans grafiğinin eğimi, varyansı stabilize etmek için bir Box-Cox parametresini tahmin eder . Bazı ilgili değişkenlere bu tür güç yasası uyumları sıklıkla gözlenir. (Bu teorik değil ampirik bir ifadedir.)

Amacınız ise mevcut sapmalara, sırasında dikkat edilmelidir. Birçok izleyici (bilimsel olanlar hariç) bir logaritmayı anlayamaz, daha az başlangıç ​​olanı. En az 1 başlangıç ​​değeri kullanmak, açıklanması ve yorumlanması diğer başlangıç ​​değerlerinden biraz daha basittir. Dikkate alınması gereken bir şey, elbette standart sapmalar olan köklerini çizmektir. Bunun gibi bir şey olurdu:

alternatif metin

Ne olursa olsun, amacınız verileri keşfetmek, onlardan öğrenmek, bir modele sığdırmak veya bir modeli değerlendirmekse, verilerinizin ve veri kaynaklı değerlerin makul grafik temsillerini bulma yoluna girmesine izin vermeyin. bu varyanslar gibi.


1
açıklama ve uygun terminoloji / referans için teşekkür ederim. İzleyici, bilimsel bir derginin okuyucularıdır ve konu varyans ayrıştırmasıdır; bir günlük dönüşümü kavramını anlamak bir ön koşuldur, ancak yine de bu sunumun daha fazla gerekçe gerektirip gerektirmediğinden emin değildim - kökler iyi bir alternatif. Teşekkürler.
David LeBauer

3

Makul olabilir. Sorulması gereken en iyi soru, 1'in eklenecek uygun sayı olup olmadığıdır. Minimum miktarınız neydi? Başlamak için 1 olsaydı, o zaman sıfır değeri olan ve 1 değeri olan öğeler arasında belirli bir aralık uyguluyorsunuz. Etki alanına bağlı olarak, ofset olarak 0,5 veya 1 / e'yi seçmek daha mantıklı olabilir. Bir günlük ölçeğine dönüştürmenin anlamı, şimdi bir oran ölçeğine sahip olmanızdır.

Ama araziler beni rahatsız ediyor. Çarpık bir dağılımın kuyruğunda açıklanan varyansın çoğuna sahip olan bir modelin istenen istatistiksel özelliklere sahip olup olmadığını sormak isterim. Bence değil.


Açık olup olmadığından emin değilim, ancak histogramlar 30 varyans değerinden ve barplotlar varyansın ham değerleridir, yani var <- c(0,0,1,3,10,100,150), hist(var), barplot(var), bunu birkaç parametre varyans olarak yorumluyorum, çoğu açıklanan varyansın kuyruğundadır. Bu daha mantıklı mı? Net değilse özür dilerim.
David LeBauer
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.