Bağımsız bir değişkenken oranları dönüştürmenin en uygun yolu nedir?


12

Bu sorunu anladığımı sanıyordum, ama şimdi tam olarak emin değilim ve devam etmeden önce başkalarıyla görüşmek istiyorum.

İki değişkenim var Xve Y. YR, bir orandır ve 0 ve 1 ile sınırlı değildir ve genellikle normal olarak dağıtılır. Xbir orandır ve 0 ve 1 ile sınırlıdır (0,0 ila 0,6 arasında çalışır). Doğrusal bir regresyon yürüttüğümde Y ~ Xve bunu öğrendiğimde Xve Yönemli ölçüde doğrusal ilişkili olduğumda . Çok uzak çok iyi.

Ama sonra daha fazla araştırıyorum ve belki Xve Yilişkisinin doğrusaldan daha eğrisel olabileceğini düşünmeye başladım . Bana göre bu ilişkisi gibi görünüyor Xve Ydaha yakın olabilir Y ~ log(X), Y ~ sqrt(X)ya da Y ~ X + X^2bunun gibi, ya da bir şey. İlişkinin eğrisel olabileceğini varsaymak için ampirik nedenlerim var, ancak doğrusal olmayan herhangi bir ilişkinin diğerinden daha iyi olabileceğini varsaymak için nedenlerim yok.

Buradan ilgili birkaç sorum var. İlk olarak, Xdeğişkenim dört değer alır: 0, 0.2, 0.4 ve 0.6. Bu verileri günlüğe kaydettiğimde veya karekök dönüştürdüğümde, bu değerler arasındaki boşluk bozulur, böylece 0 değerleri diğerlerinden çok daha uzak olur. Daha iyi bir soru sormamak için istediğim bu mu? Kabul etmiyorum, çünkü kabul ettiğim bozulma seviyesine bağlı olarak çok farklı sonuçlar elde ediyorum. İstediğim bu değilse, bundan kaçınmalıyım?

İkincisi, bu verileri log-dönüştürmek için, her bir Xdeğere bir miktar eklemeliyim çünkü 0 günlüğünü alamazsınız. 0,001 gibi çok küçük bir miktar eklediğimde, çok önemli bir bozulma elde ederim. Daha büyük bir miktar eklediğimde, örneğin 1, çok az bozulma olur. Bir Xdeğişkene eklenecek "doğru" tutar var mı ? Veya alternatif bir dönüşüm (örneğin küp-kök) veya model (örneğin lojistik regresyon) seçmek yerine bir değişkene herhangi bir şey eklemek uygun değil Xmi?

Bu konuda orada ne kadar az şey bulabildiğimi dikkatle izlemem gerekiyormuş gibi hissettiriyor. Diğer R kullanıcıları için, bu kod benimkine benzer bir yapıya sahip bazı veriler yaratacaktır.

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

Y'nin bir oran olduğunu söylüyorsunuz, ama verilerinizde 6 ile 10 arasında mı?

Evet bunu yukarıda düzelttim - bu bir oran, oran değil.
Bajcz

Yanıtlar:


13

Oranları dönüştürmeyle ilgili ana soru ( sembol olarak kullanacağım , ancak benzer şekilde ama gösterimle aynı değil) bazı genel yorumlara izin veriyor.x

Aşağıda, ortak değişkenler (öngörücüler, bağımsız değişkenler) oranlarını dönüştürmenin temel nedeninin, ilişkinin doğrusallığına yaklaştırmayı iyileştirmek veya keşif modunda, şekli veya gerçekten varlığının grafiksel olarak daha net bir fikrini elde etmek olduğunu kabul ediyorum. herhangi bir ilişki. Her zaman olduğu gibi bir eş değişkenin (örneğin) yaklaşık olarak normal olarak dağıtılıp dağıtılmadığı gibi önemli değildir. (Oranlar değerleri gösterge değişken bir çok uzak göreli olabilir hiçbir normal dağıtılacak ve oranlar da zorunlu olarak sınırlandırılır.)0,1

Oranlar tam sıfırlara veya kesin olanlara ulaşabilirse, açıkça geçersiz kılan sınırlar için bir dönüşümün tanımlanması önemlidir , çünkü belirsizdir. Bunun ötesinde, belirli bir şekil ideal olarak bazı temel (bilimsel, pratik) gerekçeler gerektirir, ancak nin ipucu olarak değerine oldukça duyarlı olduğu basit bir analizden kaynaklanmaz . log 0 log ( x + c ) clogxlog0log(x+c)c

Bu tabana logaritma ile görmek biraz daha kolaydır geçici olarak en düşünelim, böylece eşler için .c = 10 k log 10 ( x + 10 k ) x = 0 k10c=10klog10(x+10k)x=0k

Bu nedenle harita ile ve ila yaklaşık olurken, harita için ve daha çok yalnızca bir smidgen için .x = 0 0 x = 1 0.301 k = - 3 , c = 0.001 x = 0 - 3 x = 1 0k=0,c=1x=00x=10.301k=3,c=0.001x=03x=10

Benzer şekilde, her ne olursa olsun, aynı sınırlarla eşlenirken, gittikçe daha iyi bir yaklaşımla , ile eşleştirilir .0 x = 10 0k=6,9,0x=10

Böylece, alt sınır daha küçük ve daha küçük eklenen sabitler ile dışarı doğru gerilirken , üst sınır yaklaşık olarak aynı kalır. Bu tür dönüşümler böylece aralığın alt kısmını aşırı derecede gerebilir ve hatta veya yakınında çok küçük değerlerden aykırı değerler yaratabilir .0c0

Basitçe, bunu öneren insanlar muhtemelen (şimdi istediğiniz herhangi bir tabana) küçük için çok benzer davranmalıdır , bu büyük için açıkça doğrudur , ancak küçük için hiç de doğru değildir . Aksi taktirde, olarak olarak in daha dik ve daha dik eğimi burada çok sert ısırır.log x c x x log x x x 0log(x+c)logxcxxlogxxx0

Yavaş yavaş ve (diğer, ancak ilgili nedenlerle) yakınında daha yavaş değişen dönüşümlere odaklanmak tercih edilir .x = 1x=0x=1

Kare kökler ve küp kökler ve diğer güçler , için mükemmel bir şekilde tanımlanmıştır ve genellikle yakın değerlerin genişletilmesi gerektiğinde yardımcı olur . Ancak bu dönüşümler iyi biliniyor ve burada daha çok başka bir olasılığa odaklanıyorum. x = 0 , 1 0xpx=0,10

JW Tukey ( Exploratory Data Analysis , Reading, MA: Addison-Wesley, 1977) tarafından popüler hale getirilen katlanmış güçler ailesi bir olasılıktır ve . Basit çağrıştırıcı isimlere izin veren güçleri seçmek için bir zorlama olmamasına rağmen, (katlanmış kök) ve (katlanmış küp kökü) seçenekleri bu ailenin en yararlı üyeleri gibi görünmektedir. p = 1 / 2 p = 1 / 3xp(1x)pp=1/2p=1/3

Aile tanıdık logit dönüşüm benzer ve gerçekte logit sınırlayıcı bir durum eğilimi . Önemli bir fark, katlanmış güçlerin ve .p 0 x = 0 , 1 p 0logit x=logxlog(1x)p0x=0,1p0

Artık logit de dahil olmak üzere katlanmış güçler, ve yakın uç durumlara eğik-simetrik olarak davranır ve katkı ve çarpma davranışını karıştıran ters sigmoid eğrileri (aşağıdaki bazı grafikler) olarak çizer, sık kalitatif (fiziksel değilse, fiziksel, biyolojik, ekonomik, her neyse) altta yatan fenomen için gerçekler101

  • söz hakkından gelen fark ile (Emin, bir "büyük anlaşma" olabilir sadece değişiklikleri , ama aynı zamanda iki katına)0,02 x 0,010.010.02x0.01

  • söz hakkından gelen fark ile de bir "büyük anlaşma" olabilir (tabii, sadece değişiklikleri fakat "olmadan kesir" ayrıca yarıları)0,99 x 0,01 1 - x0.980.99x0.011x

  • örneğin ila arasındaki fark "daha az anlaşma" olabilir (elbette, de değişir , ancak orantılı değişiklik çok daha küçüktür)0.51 x 0.010.500.51x0.01

Bu, belki de bazı temel dinamiklerin hayal edildiğinde düşünülmesi en kolay olanıdır: sözde okuryazar insanların artan kısmı, evrensel okuryazarlığın asimptotuna yaklaştıkça devam etmek, hızlanmak ve daha sonra yavaşlamak için büyük bir itme gerektirir. Böylece zaman içindeki eğri artan veya azalan bir lojistiğe benzeyebilir. Aslında ve oranları daha yavaş yavaş daha yaklaşırken veya edilir doğal logit ve oransal tepkileri için benzer modeller için çeşitli motivasyon biridir; Burada orantılı değişkenlere odaklanmamıza rağmen, sigmoidler burada da yararlı olabilir.101

Katlanmış kök veya küp kök gibi katlanmış güçler, logit kadar güçlü bir şekilde sigmoid değildir, ancak buradaki değerli bir değer, için fudges, kludges veya nudges olmadan doğrudan ve kolayca tanımlanmalarıdır .x=0,1

Sahte ama görünüşte gerçekçi veri kümenize (kendi favori yazılımıma aktardım, ancak analiz iyi bir şeyde basit), bu dönüşümlerin hiçbirinin gerçekten hiç yardımcı olmadığı ortaya çıkıyor. Ancak verilerin grafiğinin çıkarılması, ifadesinin bile doğrudan çizilerek görülebileceği gibi güçlü bir dönüşüm olduğu konusunda açık bir uyarı verir .log(x+0.001)

Belirtmek istediğim iki ana nokta şudur:

  1. xlog(x+c) sık sık önerilen ve çoğu zaman zararsız olarak görülen, anlaşılmadığı sürece tehlikeli bir dönüşümdür ve küçük için dağılımı kuvvetli bir şekilde uzattığında (bu gerçekten istenen davranış olmadığı sürece) genellikle uygunsuzdur .x

  2. Örnek verileriniz için, denediğim hiçbir dönüşüm yardımcı görünmüyor.

Aynı zamanda, diğer olasılıklar tükenmiş olmaktan çok uzaktır. (Özellikle, kare kök veya küp kök denemedim ve diğer birçok problemde bunların açık ve ciddi adaylar olabileceğini vurguladım.)

Grafiklerin ilk seti sadece ikisi ulaşabileceğine oranlarda bazı aday dönüşümleri gösterir ve . (Doğal logaritmalar kullandım, ancak şekiller seçilen tabana bağlı değil).101

resim açıklamasını buraya girin

İkinci grafik seti, örnek veriler için çok yardımcı olan bir dönüşüm göstermez. (Karşılaştırma için, orijinal verilerdeki düz bir regresyon % , RMSE .)= 0,994R2=3.7=0.994

resim açıklamasını buraya girin

Küçük bulmaca. İşletme bir kısmı olduğu söylenir, ancak değerler etrafında için .6 10y610

EDIT: OP veri kısaca yayınlanmıştır, ancak daha sonra bunları kaldırıldı çünkü orijinal verileri burada çizilebilir.

Katlanmış güçler kullanan diğer dişler

Oran verisini dönüştürme: arcsin karekökü yeterli olmadığında

Regresyon: Düşük R kare ve yüksek p değerlerine sahip dağılım grafiği

Çarpık bir veri kümesini çizin


Mükemmel cevap ve çok kapsamlı. Sanırım benim Yoranımdan çok bir oran olduğunu söylemeliyim .
Bajcz

Oranları tanımladığım gibi sınırlı. Analizimde herhangi bir fark yaratmayan açıklama için teşekkürler (bu yüzden küçük bir detay olarak etiketledim).
Nick Cox

2
Ek yorum: Prensip olarak, eğri çizgileri veya düzleştiricileri kullanarak eğrilik vb. Verileriniz için miktarsal gerilemeyi düşünürdüm.
Nick Cox

x2x310x=0,1
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.