Eş doğrusal değişkenlerle ne yapılmalı

11

Feragatname: Bu bir ev ödevi projesi içindir.

Birkaç değişkene bağlı olarak elmas fiyatları için en iyi modeli bulmaya çalışıyorum ve şimdiye kadar oldukça iyi bir modelim var gibi görünüyor. Ancak ben açıkça collinear olan iki değişkenle karşılaştık:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Tablo ve Derinlik birbirine bağımlıdır, ancak yine de bunları tahmin modelime dahil etmek istiyorum. Elmaslar üzerinde biraz araştırma yaptım ve Tablo ve Derinlik'in bir elmasın üstündeki uzunluk ve bir elmasın yukarıdan aşağı ucuna olan mesafe olduğunu buldum. Elmasların bu fiyatları güzellik ve güzellik ile ilişkili gibi göründüğü için oranlarını da ekleyecektim, örneğin , fiyatları tahmin etmek. Bu, doğrusal değişkenlerle başa çıkmak için standart bir prosedür mü? Değilse, nedir? $\frac{Table}{Depth}$

Düzenleme: İşte Derinlik bir çizim ~ Tablo: resim açıklamasını buraya girin

— Mike Flynn
kaynak

1

İlginç bir soru için +1 ama hayır, bu kesinlikle ko-lineer değişkenlerle başa çıkmak için standart bir prosedür değildir. Umarım birisi size neden iyi olmadığı konusunda iyi bir cevap verecektir. Bu belki hala ... senin durumunda yapılacak iyi bir şey

— Peter Ellis

3

Bununla ilgili garip olan şey, -0.4 arasındaki korelasyonun yukarıdan daha uzun olan elmasların yukarıdan aşağıya daha kısa olduğunu göstermektedir. Bu sezgisel görünüyor - doğru olduğundan emin misiniz?

— Peter Ellis

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

@PeterEllis Bunun gerçek bir veri seti olduğu söylendi, evet. Depth ~ Table grafiğine bakıldığında, bunun nedeni varyansın yüksek Table değerleri için dışarı çıkması olabilir.

— Mike Flynn

14

Bu değişkenler birbiriyle ilişkilidir.

Bu korelasyon matrisinin ima ettiği doğrusal ilişkinin kapsamı, değişkenlerin eş doğrusal olarak değerlendirilebilecek kadar yüksek değildir.

Bu durumda, bu değişkenlerin üçünü de tipik regresyon uygulamaları için kullanmaktan memnuniyet duyarım.

Çoklu doğrusallığı tespit etmenin bir yolu korelasyon matrisinin Choleski ayrışmasını kontrol etmektir - çoklu doğrusallık varsa sıfıra yakın bazı köşegen elemanlar olacaktır. İşte kendi korelasyon matrisinizde:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(Köşegen her zaman pozitif olmalıdır, ancak bazı uygulamalar biriken kesme hatalarının etkisiyle biraz negatif olabilir)

Gördüğünüz gibi, en küçük diyagonal 0.91'dir, bu hala sıfırdan uzun bir yoldur.

Bunun aksine, neredeyse birbirine yakın veriler:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b-Monica'yı eski durumuna döndür
kaynak

Teşekkürler, ben sadece "ilişkili" ve "collinear" arasında kafam karıştı düşünüyorum

— Mike Flynn

@kingledion Lütfen kişilerin sorularınızı yanıtlamasını sağlamak için yorumları kullanmayın.

— Glen_b -Mons Monica

6

Bu elmas kesme şemasının Soruya fikir katabileceğini düşündüm. Yoruma resim ekleyemiyorum, bu yüzden cevap verdi ....

resim açıklamasını buraya girin

PS. @ PeterEllis'in yorumu: "Üst kısımda daha uzun olan elmasların yukarıdan aşağıya doğru daha kısa olması" şu şekilde anlamlı olabilir: Tüm kesilmemiş elmasların kabaca dikdörtgen olduğunu varsayalım (diyelim). Şimdi kesici bu sınırlayıcı dikdörtgenle kesimini seçmelidir. Bu, ödünleşmeyi tanıtır. Hem genişlik hem de uzunluk artarsa daha büyük elmaslara gidersiniz. Mümkün ama daha nadir ve daha pahalı. Mantıklı olmak?

— curious_cat
kaynak

2

Doğrusal regresyonda oranlardan kaçınılmalıdır. Esasen, bu iki değişken üzerinde doğrusal bir regresyon yapıldıysa, bunların kesişme olmadan doğrusal olarak ilişkilendirileceği; açıkçası durum böyle değil. Bkz. Http://cscu.cornell.edu/news/statnews/stnews03.pdf

Ayrıca, elmasın gizli bir değişkenini (boyut veya hacim) ölçüyorlar. Verilerinizi her iki değişkeni de içermek yerine bir yüzey alanına / hacim ölçüsüne dönüştürmeyi düşündünüz mü?

Bu derinlik ve tablo verilerinin kalıntı grafiğini yayınlamalısınız. İkisi arasındaki ilişkiniz zaten geçersiz olabilir.

— TLJ
kaynak

1

Korelasyondan, Tablo ve Genişliğin gerçekten ilişkili olup olmadığı sonucuna varmak zordur. + 1 / -1'e yakın bir katsayı, bunların eş doğrusal olduğunu söyler. Ayrıca örnek boyutu bağlıdır ... daha fazla veri varsa onaylamak için kullanın.

Eşdoğrusal değişkenlerle uğraşmanın standart prosedürü bunlardan birini ortadan kaldırmaktır ... çünkü birinin diğerini belirleyeceğini bilmek.

— Subspacian
kaynak

1

Bunu kabul ettiğimden emin değilim. Korelasyon r = - .41, ki bu bir korelasyon için makul bir büyüklüktür, diye düşünüyorum. Muhtemel N göz önüne alındığında (arsadaki bir bakışa dayanarak) r'nin oldukça 'önemli' olmasını beklerdim. Tablo ve Derinlik'in "eşdoğrusal" olarak adlandırılacak kadar ilişkili olup olmadığı bir tanımlama meselesi olacaktır (buna rağmen ben de sorunlu eşdüzeylik demem). Son olarak, r çok yakın olmadıkça değişkenlerden birini ortadan kaldırmak konusunda dikkatli olurum | 1 | (örneğin, ~ .99) - Ne demek istediğini anlayamıyorum.

— gung - Monica'yı eski durumuna döndürün

1

Tablo ve derinliğin modelinizde eşzamanlılığa neden olduğunu düşündüren nedir? Sadece korelasyon matrisinden, bu iki değişkenin eşdoğrusallık sorunlarına neden olacağını söylemek zor. Ortak F testi size her iki değişkenin de modelinize katkısı hakkında ne söylüyor? Curious_cat'in belirttiği gibi, ilişki doğrusal olmadığında Pearson (korelasyona dayalı bir ölçü?) En iyi korelasyon ölçüsü olmayabilir. VIF ve tolerans, sahip olabileceğiniz eşdoğrusallık derecesini ölçmeye yardımcı olabilir.

Bence oranlarını kullanma yaklaşımınız uygun (kollektifliğe bir çözüm olmasa da). Rakamı gördüğümde, sağlık araştırmalarında hangi bel / kalça oranının ortak bir ölçü olduğunu hemen düşündüm. Rağmen, bu durumda BMI (ağırlık / boy ^ 2) daha benzer. Oran kitlenizde kolayca yorumlanabilir ve sezgisel ise, bunu kullanmamanın bir nedeni görmüyorum. Bununla birlikte, açık bir eşzamanlılık kanıtı olmadığı sürece modelinizde her iki değişkeni de kullanabilirsiniz.

— Thomas Speidel
kaynak