Oran verisini dönüştürme: arcsin karekökü yeterli olmadığında


20

Yüzde / orantı verileri için arsin kare kök dönüşümüne (daha güçlü?) Bir alternatif var mı? Şu anda üzerinde çalıştığım veri setinde, bu dönüşümü uyguladıktan sonra belirgin heteroseladastisite kalıyor, yani artık değerlere karşı yerleştirilmiş değerlerin çizimi hala çok fazla bakımlı.

Yorumlara yanıt vermek için düzenlendi: veriler, bir bağışın% 0-100'ünü% 10'un katlarına yatırabilecek deneysel katılımcıların yatırım kararlarıdır. Ayrıca bu verilere sıralı lojistik regresyon kullanarak baktım, ancak geçerli bir glm'nin ne üreteceğini görmek istiyorum. Ayrıca, cevabın gelecekteki işler için yararlı olduğunu görebiliyordum, çünkü arcsin karekökü alanımdaki tüm çözümlere tek boyutlu bir çözüm olarak kullanılmış gibi görünüyor ve çalışan herhangi bir alternatifle karşılaşmamıştım.


2
Uygun değerler nelerdir? Modelin nedir? arsin, binom için (yaklaşık) varyans stabilizatörüdür, ancak oranlar 0 veya 1'e yakınsa yine de "kenar" etkilerine sahip olursunuz - çünkü normal kısım etkili bir şekilde kesilir.
olasılık

1
@Probabilityislogic'in söylediklerini ikiye katlayayım ve verilerin nereden geldiğini de sorgulayayım. Problemde başka bir dönüşümü veya tamamen başka bir modeli öneren, daha uygun ve / veya yorumlanabilir bir şey olabilir.
JMS

1
@prob @JMS İstatistikler hakkında oldukça bilgili olduğuna inandığım OP'nin önce dönüşüm rotasını denemesine neden izin vermiyoruz? Daha sonra, bu işe yaramazsa, sorunun daha az dar bir şekilde sunulduğu yeni bir konuya başlamak verimli olacaktır. Yorumlarınız bu bağlamda uygun olacaktır.
whuber

1
Eğlenceli başlık başlıklı makalede açık bir şekilde açıklanan arsin kare kök transformasyonu ile ilgili büyük problemler vardır Arsin asinindir: ekolojideki oranların analizi
mkt - Reinstate Monica

1
Referans için teşekkürler, bu doğrudan bir sonraki dönemin genelleştirilmiş doğrusal modeller konusundaki dersine girdi.
Freya Harrison

Yanıtlar:


28

Elbette. John Tukey, EKA'da bir (artan, bire bir) dönüşümler ailesini anlatıyor . Bu fikirlere dayanmaktadır:

  1. Bir parametre tarafından kontrol edilen kuyrukları (0 ve 1'e doğru) uzatabilme.

  2. Yine de ortada (yakın orijinal (dönüştürülmemiş) değerleri eşleştirmek için 1/2 yorumlamak dönüşümü kolaylaştırır).

  3. İlgili yeniden ekspresyonu, simetrik hale getirmek için 1/2. ise, bir p yeniden ifade edildiği gibidir f(p) , daha sonra 1p yeniden ifade edildiği gibi olacaktır f(p) .

Herhangi bir artan monotonik fonksiyonla başlarsanız g:(0,1)R1/2 ayırt edilebilir, ikinci ve üçüncü kriterleri karşılayacak şekilde ayarlayabilirsiniz: sadece tanımlayın

f(p)=g(p)g(1p)2g(1/2).

Pay açıkça simetriktir (kriter (3) ), çünkü p1p ile değiştirilmesi çıkarma işlemini tersine çevirir, böylece onu reddeder. Görmek için (2) payda yapmak için gereken faktör tam olarak memnun olduğunu not f(1/2)=1. olduğunu hatırlayın türevi yaklaşık olarak eşit bir doğrusal fonksiyonu ile bir fonksiyonu lokal davranış; 1=1:1 eğim, böylece f(p)p(artı bir sabit 1/2 ) p yeterince yakın olan 1/2. Bu orijinal değerleri edildiği anlamda "ortasına yakın eşleşti."

Tukey buna g "katlanmış" versiyonu diyor . Ailesi güç oluşur ve dönüşümler log g(p)=pλ zaman, λ=0 , düşündüğümüz g(p)=log(p) .

Bazı örneklere bakalım. Tüm λ=1/2 katlanmış, kök ya da almak için "Froot," f(p)=1/2(p1p). λ=0olduğunda, katlanmış logaritma veya "flog,"f(p)=(log(p)log(1p))/4. Açıkçası bu,logitdönüşümününsabit bir katıdır,log(p1p).

Lambda = 1, 1/2, 0 ve arksin için grafikler

Bu grafikte mavi çizgi karşılık için λ=1 , ara madde kırmızı çizgi λ=1/2 , ve aşırı yeşil hat λ=0 . Kesikli altın hattı, Ark dönüşümdür arcsin(2p1)/2=arcsin(p)arcsin(1/2). Eğimlerin "eşleşmesi" (kriter(2)), tüm grafiklerinp=1/2'yedenk gelmesine neden olur.p=1/2.

λ parametresinin en yararlı değerleri 1 ile 0 arasındadır . (Sen negatif değerleri ile kuyrukları daha da ağır yapabilir λ , ancak bu kullanım nadirdir.) λ=1 değerlerine Yakınlaştır dışında hiç bir şey yapmaz ( f(p)=p1/2 ). Olarak λ sıfıra doğru küçülür kuyrukları doğru çekilmeye olsun ± . Bu, # 1 numaralı kriteri karşılar. Böylece, uygun bir λ değeri seçerek kuyruklarda bu yeniden ifadenin "gücünü" kontrol edebilirsiniz.


whuber, bunu otomatik olarak yapan herhangi bir R işlevi biliyor mu?
John

1
@John Hayır yapmıyorum, ama uygulamak için yeterince basit.
whuber

2
Temelde zor görmedim ama otomatik olarak lambda için en iyi seçim arsa boxcox tranforms gibi bir şey olsaydı iyi olurdu. Evet, uygulamak korkunç değil ...
John

2
Teşekkürler Whuber, aradığım şey tam olarak bu ve grafik gerçekten yararlı. Kesinlikle John ile boxcox gibi bir şey yardımcı olacağını kabul ediyorum, ama bu üzerinde çalışmak için yeterince basit görünüyor.
Freya Harrison

7

Dahil etmenin bir yolu, dizinlenmiş bir dönüşüm eklemektir. Genel bir yol, herhangi bir simetrik (ters) kümülatif dağılım fonksiyonunun kullanılmasıdır, böylece ve F ( x ) = 1 - F ( - x ) . Bir örnek, ν serbestlik derecesine sahip standart öğrenci dağılımıdır . V parametresi dönüştürülen değişkenin sonsuza kadar ne kadar çabuk uzaklaştığını kontrol eder. V = 1 değerini ayarlarsanız , arktan dönüşümünüz olur:F(0)=0.5F(x)=1F(x)νvv=1

x=arctan(π[2p1]2)

Bu, arkinden çok daha fazla ve logit dönüşümünden daha aşırıdır. Logit dönüşümünün, ile t dağılımı kullanılarak kabaca tahmin edilebileceğini unutmayın . SO bir şekilde logit ve probit ( ν = ) dönüşümleri arasında yaklaşık bir bağlantı ve bunların daha aşırı dönüşümlere genişletilmesini sağlar.ν8ν=

Bu dönüşümlerle ilgili sorun , gözlenen oran 1 veya 0'a eşit olduğunda vermeleridir . Yani bir şekilde bunları bir şekilde küçültmeniz gerekiyor - en basit yol + 1 "başarı" ve + 1 "başarısızlık" eklemektir .±10+1+1


2
Çeşitli nedenlerle Tukey, sayılara +1/6 eklemenizi önerir. Bu cevabın Tukey'in katlama yaklaşımında tarif ettiğim özel bir durum olduğunu unutmayın: pozitif PDF içeren herhangi bir CDF monotoniktir; simetrik bir CDF katlandığında değişmeden kalır.
whuber

2
Kaba yaklaşımınızın nereden geldiğini merak ediyorum. nasıl ulaşırsınız ? Bunu yeniden üretemem. Ben yaklaşım olduğunu kabul gerekir en uç noktalarında yıkmak p yakın 0 ya da 1 , ama bulmak ν = 5 için logit için çok daha iyi bir eşleşme p yakınında 1 / 2 . Belki de t ν ve logit CDF'si arasındaki ortalama farkın bir ölçüsünü optimize ediyor musunuz ? ν8p01ν=5p1/2tνlogit
whuber

2
@whuber - bana çok fazla kredi veriyorsun. Benim önerim, pdf grafiğine, f ( x ) = e - x ( 1 + e - x ) - 2 lojistik grafiğine ve standart normal pdf grafiğine bakmaya dayanıyordu . 5 serbestlik derecesi aşırı basıklık ile eşleşir ve daha iyi olabilir. t8f(x)=ex(1+ex)25
olasılık

5
@whuber Sayımlara 1/6 eklemenin bir nedeni, ortaya çıkan "başlatılan" sayının, daha önce Jeffreys ile binom dağılımını kabul ettiği medyan posterior'a yaklaşmasıdır (Bu konuda biraz yazıyorum : sumsar.net/blog/2013/09/ a-bayes-tukeys-flog üzerinde büküm ). Ancak bunun Tukey'nin 1/6 ekleme sebebi olup olmadığını bilmiyorum. Sebebinin ne olabileceğini biliyor musun?
Rasmus Bååth

4
xxi<xxi=x(xi)
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.