Doğrusallığa ulaşmak için en iyi dönüşüm nasıl seçilir?


10

Çoklu doğrusal regresyon yapmak ve sonra yeni değerleri az tahmin ile tahmin etmek istiyorum. Yanıt değişkenim -2 ile +7 arasında ve üç öngörücü var (yaklaşık +10 - +200 aralığında). Dağılım neredeyse normaldir. Ancak cevap ve öngörücüler arasındaki ilişki doğrusal değildir, araziler üzerinde eğriler görüyorum. Örneğin bunun gibi: http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

Doğrusallığa ulaşmak için bir dönüşüm uygulamak istiyorum. Yanıt değişkenleri arasında doğrusal bir ilişki görmek için farklı fonksiyonları kontrol ederek ve ortaya çıkan grafiklere bakarak tepki değişkenini dönüştürmeye çalıştım. Ve bana görünür doğrusal ilişki sağlayabilecek birçok fonksiyon olduğunu buldum. Örneğin, işlevler

t1=log(y+2.5)

t2=1log(y+5)

t3=1y+5

t4=1(y+10)3

t5=1(y+3)13 vb. benzer sonuçları verir: http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg

Tahmin edilen değerleri geri dönüştükten sonra ( için vb.). Dağılımlar aşağı yukarı normale benzer. y=1t=1(y+10)3y=1t1310

Verilerim için en iyi dönüşümü nasıl seçebilirim? Doğrusallığı değerlendirmenin nicel (ve çok karmaşık olmayan) bir yolu var mı? Seçilen dönüşümün en iyi olduğunu kanıtlamak veya mümkünse otomatik olarak bulmak.

Yoksa tek yol doğrusal olmayan çoklu regresyon yapmak mı?


Formüllerinizin biçimlendirmesini iyileştirmeye çalıştım, ancak bazı hatalar getirmiş olabilir - lütfen kontrol edin.
Peter Ellis

Sana inanmıyorum. ile arasında, aralığında altıncı bir değişkenle aynı anda doğrusal bir ilişki olması matematiksel olarak mümkün değildir . Bence bu dönüşümlerini hesaplarken bir hata yapmış olabilirsiniz . t 5 0 200 yt1t50200y
whuber


2
Haklısın. Y'nin bu kadar geniş bir yeniden ifade aralığının r ile doğrusal bir ilişki içinde kalması oldukça şaşırtıcı. Bunu paylaştığın için teşekkürler. Eğer artıklarını çizmek, o bulacaksınız iyi ilgili görünüyor ve sonra hiçbir yeniden ifadesini gerekir: . r1/(y+5)rplot(lm(1/(y+5)~r))
whuber

Yanıtlar:


14

Bu bir sanattır, ancak her zaman deneyebileceğiniz standart, basit şeyler vardır.

Yapılacak ilk şey , artıkları normal yapmak için bağımlı değişkeni ( ) yeniden ifade etmektir . Bu örnekte, noktaların çok az dağılma ile düzgün doğrusal olmayan bir eğri boyunca düştüğü bu örnekte gerçekten geçerli değildir. Bu yüzden bir sonraki adıma geçiyoruz.y

Bir sonraki şey , ilişkiyi doğrusallaştırmak için bağımsız değişkeni ( ) yeniden ifade etmektir . Bunu yapmanın basit ve kolay bir yolu var. Eğri boyunca tercihen her iki uçta ve ortada üç temsili nokta seçin. İlk şekilde, sıralı çiftleri okudum = , ve . Bu dışında herhangi bir bilgi olmadan her zaman pozitif gibi görünüyor, iyi güçler çeşitli güçler için Box-Cox dönüşümlerini keşfetmek , genellikle katları olarak seçilir. veya ve tipik olarak arasında( r , y ) ( 10 , 7 ), ( 90 , 0 ) ( 180 , - 2 ) r, r ( r p - 1 ) / s p 1 / 2 1 / 3 - 1 1 p 0 günlük ( r )r(r,y)(10,7)(90,0)(180,2)r r(rp1)/pp1/21/31 ve . ( , yaklaştıkça sınırlayıcı değer .) İlk iki nokta arasındaki eğimin ikinci çift arasındaki eğime eşit olması koşuluyla, bu dönüşüm yaklaşık bir doğrusal ilişki yaratacaktır.1p0log(r)

Örneğin, dönüştürülmemiş verilerin eğimleri = - ve = . Bunlar oldukça farklı: biri diğerinin dört katı. Çalışıyor eğimlerini verir , vb., ve : şimdi bunlardan biri diğerinin sadece iki katıdır, bu bir gelişmedir. Bu şekilde devam etmek (bir elektronik tablo uygundur), iyi çalıştığını görüyorum : eğimler şimdi ve(07)/(9010)0.088(20)/(18090)0.022p=1/2-adlı işletmeye 16.6-adlı işletmeye 32.4p0-işletmeye 7.3-işletmeye 6.6y=α+βgünlük(R)y(07)/(901/211/2101/211/2)16.632.4p07.36.6, neredeyse aynı değer. Sonuç olarak, formunun bir modelini denemelisiniz . Sonra tekrarlayın: bir çizgi yerleştirin, kalıntıları inceleyin, yaklaşık simetrik olmasını ve tekrarlamasını sağlamak için bir dönüşüm belirleyin .y=α+βlog(r)y

John Tukey, klasik Keşif Veri Analizi kitabında ayrıntılar ve birçok örnek sunmaktadır (Addison-Wesley, 1977). O, varyans stabilize dönüşümler tanımlamak için benzer (ancak biraz daha kapsamlı) prosedürleri verir . Bir alıştırma olarak sağladığı örnek bir veri seti, çeşitli sıcaklıklarda ölçülen cıva buharı basınçları hakkında asırlık verilerle ilgilidir. Bu prosedürün takip edilmesi, Clausius-Clapeyron ilişkisini yeniden keşfetmeyi mümkün kılar ; son oturuma kadar olan artıklar atomik mesafelerde meydana gelen kuantum-mekanik etkiler açısından yorumlanabilir!y


Box-Cox dönüşümünün tavsiyesi için teşekkürler. Lm (1 / (y + 5) ~ r) ve diğer fonksiyonların R karelerini kontrol etmek ve sonra bu R karelerini karşılaştırmak mantıklı geliyor mu?
nadya

rSabitlendiğinde mantıklıdır , çünkü o zaman artıkların varyansı için bir proxy'dir. Yine de (bağımsız değişken) yeniden ifade ediyorsanız , değersiz veya yanıltıcıdır: bkz. Stats.stackexchange.com/questions/13314/… . R 2R2rR2
whuber

Cevabınız için çok teşekkürler! Bağımsız değişkenlerimi dönüştürmeyeceğim
nadya

y

@Erich Bu kitabın her bir parçası son derece ödüllendirici: sonuçta, kalem ve kağıt ile bir şeyler yapabiliyorsanız, bunu yapmak için bir bilgisayar programlayabilirsiniz :-). Tek bir değişkenle genellikle simetri (ampirik dağılımının) için dönüştürmek güzeldir ; Tukey buna "küçük bir anlaşma" diyor. Böyle bir dönüşümü tanımlamanın basit bir yolu, bölüm 3E, "Hızla bakmak" bölümünde açıklanmaktadır. N harfli bir özette bir bakışta neler öğrenilebileceğini gösterir (Tukey, 7 veya 9 harfli bir özet önerir). Bu beceriyi elde etmek, bir bilgisayar programının hesaplamaları sizin için yapmasından daha değerlidir.
whuber

1

Orijinal ölçekte yanıt değişkeniniz (ya da daha doğrusu, yanıt değişkeninizin kalıntıları haline gelecektir), sizin ifade ettiğiniz gibi Normal dağılıma sahipse, diğer değişkenlerle doğrusal bir ilişki oluşturmak için dönüştürmek artık Normal olmadığı anlamına gelir. ve ayrıca varyans ve ortalama değerler arasındaki ilişkiyi de değiştirecektir. Bu yüzden açıklamanızın bu kısmından, yanıtı dönüştürmekten lineer olmayan regresyon kullanmaktan daha iyi olduğunuzu düşünüyorum. Aksi takdirde, cevabın doğrusal dönüşümünden sonra, daha karmaşık bir hata yapısına ihtiyacınız olacaktır (bu bir yargı meselesi olabilir ve grafiksel yöntemler kullanarak kontrol etmeniz gerekir).

Alternatif olarak, açıklayıcı değişkenlerin dönüşümünü araştırın . Düz dönüşümlerin yanı sıra, ikinci dereceden terimler ekleme seçeneğiniz de vardır.

Daha genel olarak, dönüşümün temeli olarak ne kullanmanız gerektiğini öneren mevcut bir teori yoksa, dönüşüm bir bilimden daha fazla bir sanattır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.