Regresyon: Değişkenleri Dönüştürmek


41

Değişkenleri dönüştürürken, aynı dönüşümü kullanmanız gerekir mi? Örneğin, farklı dönüştürülmüş değişkenleri seçip seçebilir miyim:

, Let yaş, istihdam süresi, yaşadıkları uzunluğu ve gelir olmak.x1,x2,x3

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

Veya dönüşümlerinizle tutarlı olmanız ve hepsini kullanmanız mı gerekiyor? De olduğu gibi:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Anladığım kadarıyla dönüşümün amacı normallik sorununu ele almak. Her değişkenin histogramlarına baktığımızda, çok farklı dağılımlar sunduklarını görüyoruz, bu da gerekli dönüşümlerin değişken bazında değişken olarak farklı olduğuna inanmamı sağladı.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

alt metin

Son olarak, kullanarak değişkenleri nasıl dönüştürüleceği geçerlidir sahiptir değerleri? Bu dönüşümün tüm değişkenler arasında tutarlı olması gerekiyor mu, yoksa 'ları içermeyen değişkenler için bile geçici mi kullanılıyor ?x n 0 0log(xn+1)xn00

## R Code 
plot(df[1:7])

alt metin

Yanıtlar:


59

Bunlardan biri , artıkların simetri ve eşdeğerilik oranlarını elde etmek için bağımlı değişkeni dönüştürür . Bağımsız değişkenlerin dönüşümleri farklı bir amaca sahiptir: sonuçta, bu regresyonda tüm bağımsız değerler sabit, rasgele değil olarak alınır, bu nedenle “normallik” uygulanamaz. Bu dönüşümlerde asıl amaç , bağımlı değişkenle (veya gerçekten, logit ile) doğrusal ilişkiler kurmaktır. (Bu amaç, aşırı kaldıraç oranının düşürülmesi gibi yardımcı hedefleri aşmaktadır.veya katsayıların basit bir yorumunu elde etmek.) Bu ilişkiler verilerin ve onları oluşturan olayların bir özelliğidir, bu nedenle değişkenlerin her birinin uygun ifadelerini diğerlerinden ayrı olarak seçebilme esnekliğine ihtiyacınız vardır. Spesifik olarak, yalnızca bir günlük, bir kök ve bir karşılıklılık kullanmak sorun değil, oldukça yaygındır. İlke, verilerin orijinal olarak nasıl ifade edildiğiyle ilgili (genellikle) hiçbir özelliğin bulunmamasıdır; bu nedenle, verilerin etkili, doğru, kullanışlı ve (mümkünse) teorik olarak doğrulanmış modellere yol açan yeniden ifadeleri önermesine izin vermelisiniz.

Tek değişkenli dağılımları yansıtan histogramlar, genellikle başlangıçtaki dönüşüme işaret eder, ancak eğilimi bozmaz. Scatterplot matrisleri ile eşlik edin, böylece tüm değişkenler arasındaki ilişkileri inceleyebilirsiniz.


Gibi Dönüşümler ve hiçbir değeri bile belirtilebilir - pozitif sabiti "değerini start" çalışabilir olduğu sıfırdır - ama bazen onlar doğrusal ilişkileri yok eder. Bu olduğunda, iyi bir çözüm iki değişken oluşturmaktır . Bunlardan biri sıfır olduğunda ve aksi halde herhangi bir şey olduğunda değerine eşittir ; Varsayılan ayarın sıfıra bırakılması uygundur. Diğeri, onu , sıfır olup olmadığının bir göstergesidir : olduğunda 1 olur ve aksi takdirde 0 olur. Bu terimler bir miktar katkıda bulunurc x log ( x ) x Z X X X = 0log(x+c)cxlog(x)xzxxx=0

βlog(x)+β0zx

Tahmine göre. Tüm , ikinci dönem sadece bırakarak düşer, böylece . Zaman , " ise" sıfıra set edilmemiş , yalnızca değer bırakarak . Bu nedenle, , ve aksi durumda katsayısı olduğunda etkiyi tahmin eder .z x = 0 β log ( x ) x = 0 log ( x ) z x = 1 β 0 β 0 x = 0 β log ( x )x>0zx=0βlog(x)x=0log(x)zx=1β0β0x=0βlog(x)


1
Çok yararlı bir açıklama, benim soru da yön ve detay için teşekkürler.
Brandon Bertelsen,

pareonline.net/getvn.asp?v=15&n=12 Osborne (2002), bir dağıtıma minimum değeri tam olarak 1.0 olarak eklemenizi önerir. pareonline.net/getvn.asp?v=8&n=6
Chris

1
@Chris Tüm Box-Cox dönüşümleri de negatiften pozitifine geçiş yapar . Bu, doğrusal olmayan bir dönüşümle ilgisi yoktur, çünkü başka bir değişkenle olan ilişkinin varyansı veya doğrusallığı üzerindeki etkilerini değiştirmeden herhangi bir doğrusal dönüşümle izlenebilir. Bu nedenle, müşteriniz negatif sayılara alerjisi varsa , dönüşümden sonra uygun bir sabit ekleyin . Dönüşümden önce sabit eklemek , ancak, derin bir etkiye sahip olabilir - ve bu yüzden her zaman kullanmak için hiçbir öneri muhtemelen doğru olamazdı. 111
whuber

1
Üzerinde çalıştığım veri kümelerimden birinde, bağımlı cevap değişkenini 1'de çapaya kaydırdığım ve çarpıklığı gidermek için bir kutu kox dönüşümü kullanıp kullanmadığımı fark ettim, ortaya çıkan dönüşüm, eleştirinize önem vermekteydi. ;)
Chris

1
@ whuber Önceki sorum çok saçma (muhtemelen yorum silecek). Elbette , kukla göstergesine, DEĞİL ise modeldeki sabit ile ilgilidir. Bu kurulumun kapsamlı ve net açıklamaları için tekrar teşekkür ederiz; işim için çok yardımcı. Genel olarak, bu diğer eşdeğer yaklaşımın aksine bu parametrelemeyi tercih ederim . z xβ0zx
landroni
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.