Yanıtları, Box-Cox dönüştürülmüş verilerinde orijinal birimler cinsinden ifade edin


13

Bazı ölçümler için bir analizin sonuçları dönüştürülmüş ölçekte uygun şekilde sunulur. Bununla birlikte, çoğu durumda, sonuçları orijinal ölçüm ölçeğinde sunmak arzu edilir (aksi takdirde çalışmanız az çok değersizdir).

Örneğin, log dönüştürülmüş veri durumunda, kaydedilen değerlerin ortalaması ortalamanın günlüğü olmadığı için orijinal ölçekte yorumlama ile ilgili bir sorun ortaya çıkar. Günlük ölçeğinde ortalama tahmininin antilogaritmasını almak, orijinal ölçekte ortalamanın bir tahminini vermez.

Bununla birlikte, log dönüştürülmüş verilerin simetrik dağılımları varsa, aşağıdaki ilişkiler tutulur (log sıralamayı koruduğundan):

Mean[log(Y)]=Median[log(Y)]=log[Median(Y)]

(log değerlerinin ortalamasının antilogaritması, orijinal ölçüm skalasındaki ortancadır).

Bu yüzden sadece ortancaların orijinal ölçüm ölçeğindeki farkı (veya oranı) hakkında çıkarımlarda bulunabilirim.

Popülasyonlar yaklaşık olarak standart sapmalarla kabaca normal ise iki örnekli t-testleri ve güven aralıkları en güvenilir olanıdır, bu nedenle Box-Cox, normalite varsayımı için dönüşümü kullanmaya cazip gelebiliriz (ayrıca bir varyans dengeleyici dönüşüm olduğunu da düşünüyorum. ).

Ancak, Box-Coxdönüştürülmüş verilere t araçları uygularsak, dönüştürülmüş verilerin ortalamalarındaki fark hakkında çıkarımlar elde ederiz. Orijinal ölçüm ölçeğinde bunları nasıl yorumlayabiliriz? (Dönüştürülen değerlerin ortalaması dönüştürülen ortalama değildir). Diğer bir deyişle, dönüştürülmüş ölçekte ortalama tahmininin ters dönüşümünü almak, orijinal ölçekte ortalamanın bir tahminini vermez.

Bu durumda sadece medyanlar hakkında çıkarımlarda bulunabilir miyim? Araçlara geri dönmeme izin verecek bir dönüşüm var mı (orijinal ölçekte)?

Bu soru başlangıçta buraya yorum olarak gönderildi

Yanıtlar:


11

Özellikle orijinal değişkenin ortalamasıyla ilgili çıkarımlar istiyorsanız, o zaman Box-Cox dönüşümünü kullanmayın. IMO Box-Cox dönüşümleri, dönüştürülmüş değişkenin kendi yorumu olduğunda en yararlıdır ve Box-Cox dönüşümü sadece analiz için doğru ölçeği bulmanıza yardımcı olur - bu şaşırtıcı bir şekilde sıklıkla ortaya çıkar. Bu şekilde bulduğum iki beklenmedik üs, 1/3 (yanıt değişkeni mesane hacmi olduğunda) ve -1 (yanıt değişkeni dakikada nefes olduğunda) idi.

Log-dönüşümü muhtemelen bunun tek istisnasıdır. Log ölçeğindeki ortalama, en azından iyi tanımlanmış bir miktar olan orijinal ölçeğin geometrik ortalamasına karşılık gelir.


Başka istisnalarınız da var. -1 harmonik ortalamasına karşılık gelir, ...
kjetil b halvorsen

9

Box-Cox dönüşümü simetrik bir dağılım sağlıyorsa, dönüştürülen verilerin ortalaması orijinal ölçekte medyana geri dönüştürülür. Bu, Box-Cox dönüşümleri, IHS dönüşümleri, vb. Dahil olmak üzere herhangi bir monotonik dönüşüm için doğrudur. Dolayısıyla, dönüştürülen verilerdeki araçlar hakkındaki çıkarımlar, orijinal ölçekte medyan hakkındaki çıkarımlara karşılık gelir.

Orijinal veriler çarpık olduğundan (veya ilk etapta bir Box-Cox dönüşümü kullanmazdınız), neden araçlar hakkında çıkarımlar istiyorsunuz? Bu durumda medyanlarla çalışmanın daha anlamlı olacağını düşünürdüm. Bunun neden "orijinal ölçekte yorumlama sorunu" olarak görüldüğünü anlamıyorum.


Çıkarım BC parametresine bağlıdır - bunun orijinal ölçekte kolay bir yorumu var mı? Ben her zamanki ders sadece bu şekilde rapor ve bu şekilde bırakmak olduğunu düşünüyorum (genellikle asimptotik eşdeğerlik hakkında bir sonuç dayanarak genellikle geçerli olmayabilir). λ
ars

Teşekkür ederim. Belki de örnek (yaklaşık simetrik bir dağılım izlemesi gerektiğini düşündüğüm bir popülasyondan) şans eseri çarpık olabilirdi.
Ağustos'ta George Dontas

4
Bazı çevresel risk değerlendirmelerinin sağladığı araçlar hakkında çıkarım yapma ihtiyacına güzel bir örnek. Büyük ölçüde basitleştirmek için, bir parka arazi geliştirmeyi planladığınızı hayal edin. Toprakları endişe verici bir bileşik için test edersiniz ve çoğu zaman olduğu gibi, konsantrasyonunun yaklaşık lognormal olarak dağıldığını görürsünüz. Bununla birlikte, bu topraklara doğrudan maruz kalabilecek parkı kullanan insanlar, hareket ettikçe toprakları rastgele düzgün bir şekilde "örnekleyecek". Zaman içinde maruz kalmaları, geometrik ortalaması değil aritmetik ortalama konsantrasyonu olacaktır.
whuber

1
Bazen bir şeyin toplam miktarının formülasyonlarından kaynaklanan problemlerle ilgileniriz. Ortalamayı biliyorsanız, ortalamadan toplama gidebilirsiniz (gözlem sayısıyla çarpılır). Ortancadan topluma ulaşmanın bir yolu yok!
George Dontas

6

Orijinal ölçekte araçlar hakkında çıkarım yapmak istiyorsanız, normalite varsayımı kullanmayan çıkarım kullanmayı düşünebilirsiniz.

Ancak dikkatli olun. İki numunenin farklı varyansları varsa, örnekleme yeniden örnekleme (permütasyon testleri veya önyükleme) yoluyla araçların düz bir karşılaştırmasını basitçe takmak, analiziniz varyansların eşit olduğunu varsayarsa (ve dönüştürülen ölçekte eşit varyanslar fark varyansları olacaktır) orijinal ölçekte. Bu teknikler ne yaptığınızı düşünmek zorunda kalmaz.

Tahminden veya tahminden test etmekten daha fazla ilgilenip ilgilenmediğinizi düşünmek için başka bir yaklaşım, dönüştükten sonra yaklaşık ortalama ve varyansı hesaplamak için dönüştürülmüş değişkenlerin bir Taylor genişlemesini kullanmaktır - burada her zamanki Taylor genişlemesinde , şimdi yazıyorsunuz ; burada , ortalama ve varyans ile rastgele bir değişkendir ve kullanarak geri dönüştürmek üzeresiniz .t [ μ + ( Y - μ ) ] Y μ σ 2 t ( )f(x+h)t[μ+(Yμ)]Yμσ2t()

Beklentileri alırsanız, ikinci terim düşer ve insanlar genellikle sadece birinci ve üçüncü terimleri alırlar (üçüncüsü, ortalamanın dönüştürülmesinde yanlılığa bir yaklaşımı temsil eder); ayrıca, genişlemenin varyansını ikinci terime alırsanız, ilk terim ve ilk kovaryans terimleri düşer - çünkü sabittir - varyans için tek terimli bir yaklaşım bırakır.t(μ)

-

En kolay durum, log ölçeğinde normalliğe sahip olduğunuz ve dolayısıyla orijinal ölçekte lognormal olduğun zamandır. Varyansınız biliniyorsa (en iyi şekilde nadiren olur), orijinal ölçekte lognormal CI'ler ve PI'ler oluşturabilir ve ilgili miktarın dağılımının ortalamasından tahmini bir ortalama verebilirsiniz.

Eğer log ölçeğinde hem ortalama ve varyans tahmin ediyorsanız, log oluşturabilirsiniz (bir gözlem, diyelim için tahmin aralıkları) aralıkları, ancak orijinal ölçekli log- herhangi anları yoktur . Yani bir tahminin ortalaması yoktur.ttt

Hangi soruyu cevaplamaya çalıştığınızı tam olarak düşünmeniz gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.