Bağımsız değişkenlerin standartlaştırılması kollearlığı azaltır mı?


13

Bayes / MCMC'de çok iyi bir metne rastladım. BT, bağımsız değişkenlerinizin standartlaştırılmasının bir MCMC (Metropolis) algoritmasını daha verimli hale getireceğini, ancak aynı zamanda (çoklu) çarpışabilirliği azaltabileceğini önermektedir. Bu doğru olabilir mi? Bu standart olarak yapmam gereken bir şey mi ? (Üzgünüm).

Kruschke 2011, Bayesci Veri Analizi Yapmak. (AP)

düzenleme: örneğin

     > data(longley)
     > cor.test(longley$Unemployed, longley$Armed.Forces)

Pearson's product-moment correlation

     data:  longley$Unemployed and longley$Armed.Forces 
     t = -0.6745, df = 14, p-value = 0.5109
     alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
     -0.6187113  0.3489766 
     sample estimates:
      cor 
     -0.1774206 

     > standardise <- function(x) {(x-mean(x))/sd(x)}
     > cor.test(standardise(longley$Unemployed), standardise(longley$Armed.Forces))

Pearson's product-moment correlation

     data:  standardise(longley$Unemployed) and standardise(longley$Armed.Forces) 
     t = -0.6745, df = 14, p-value = 0.5109
      alternative hypothesis: true correlation is not equal to 0 
     95 percent confidence interval:
      -0.6187113  0.3489766 
      sample estimates:
       cor 
     -0.1774206 

Bu korelasyonu veya dolayısıyla vektörlerin sınırlı doğrusal bağımlılığını azaltmamıştır.

Neler oluyor?

R,

Yanıtlar:


19

Ana etkiler arasındaki eşzamanlılığı hiç değiştirmez. Ölçekleme de değildir. Herhangi bir doğrusal dönüşüm bunu yapmaz. Değişen, ana etkiler ve etkileşimleri arasındaki ilişkidir. A ve B, 0'lık bir korelasyonla bağımsız olsa bile, A ve A: B arasındaki korelasyon, ölçek faktörlerine bağlı olacaktır.

R konsolunda aşağıdakileri deneyin. rnormAyarladığınız popülasyon değerleriyle normal bir dağılımdan rastgele örnekler oluşturduğunu unutmayın, bu durumda 50 örnek. scaleFonksiyon 0 ortalama ve 1 SD numunenin standart hale getirmektedir.

set.seed(1) # the samples will be controlled by setting the seed - you can try others
a <- rnorm(50, mean = 0, sd = 1)
b <- rnorm(50, mean = 0, sd = 1)
mean(a); mean(b)
# [1] 0.1004483 # not the population mean, just a sample
# [1] 0.1173265
cor(a ,b)
# [1] -0.03908718

Bu bağımsız örnekler için arızi korelasyon 0'a yakındır. Şimdi ortalama 0 ve SD 1 olarak normalleştirin.

a <- scale( a )
b <- scale( b )
cor(a, b)
# [1,] -0.03908718

Yine, bu ortalama her ikisi için de 0 ve SD = 1 olduğu halde aynı değerdir ave b.

cor(a, a*b)
# [1,] -0.01038144

Bu da 0'a çok yakın. (A * b etkileşim terimi olarak kabul edilebilir)

Bununla birlikte, genellikle SD ve öngörücülerin ortalamaları biraz farklıdır, bu yüzden değişelim b. Yeni bir örnek almak yerine, orijinali bortalama 5 ve SD 2 olacak şekilde yeniden ölçeklendireceğim .

b <- b * 2 + 5
cor(a, b)
 # [1] -0.03908718

Tekrardan, bu baştan beri gördüğümüz korelasyon. Ölçeklendirmenin ave arasındaki korelasyon üzerinde hiçbir etkisi yoktur b. Fakat!!

cor(a, a*b)
# [1,] 0.9290406

Şimdi bu, merkezleme ve / veya standartlaştırma yoluyla ortadan kaldırabileceğiniz önemli bir korelasyona sahip olacak. Genellikle sadece merkezleme ile giderim.


1
Kapsamlı ve anlaşılır cevap için +1 (kod ile!)
Peter Flom

1
İkinci dereceden bir terim eklemek istiyorsanız da yararlıdır.
Aniko

kesinlikle Aniko
John

1
En iyi cevap - bunun için teşekkürler. Kitabı da yanlış yorumlamada bir haksızlık yapmış olabilirim, ama belki de cehaletimi açığa vurmaya değdi.
Rosser

7

Diğerlerinin daha önce de bahsettiği gibi, standardizasyonun kollearlık ile hiçbir ilgisi yoktur.

Mükemmel eşbiçimlilik

XμXσX

ZX=XμXσX

yer alır ortalama ve standart sapma özelliklerini verilen beklenen değer ve varyans bu , ve , , burada rv ve sabittir.μZ=0σZ=1E(X+a)=E(X)+aE(bX)=bE(X)Var(X+a)=Var(X)Var(bX)=b2Var(X)Xa,b

Biz iki değişken olduğunu söylemek ve olan mükemmel aynı doğrultudaki bu tür değerleri ortaya çıkması durumunda, ve oXYλ0λ1

Y=λ0+λ1X

Eğer Aşağıda, ortalama sahiptir ve standart sapma , daha sonra sahip ortalama ve standart sapma . Şimdi, her iki değişkeni standartlaştırdığımızda (araçlarını kaldırın ve standart sapmalara ), ...XμXσXYμY=λ0+λ1μXσY=λ1σXZX=ZX

bağıntı

Kuşkusuz, mükemmel eşzamanlılık, sık sık göreceğimiz bir şey değildir, ancak güçlü bir şekilde ilişkili değişkenler de bir sorun olabilir (ve bunlar eşzamanlılıkla ilişkili türlerdir). Standardizasyon korelasyonu etkiler mi? Lütfen ölçeklemeden önce ve sonra iki grafikte iki ilişkili değişkeni gösteren aşağıdaki grafikleri karşılaştırın: resim açıklamasını buraya girin

Farkı bulabilir misin? Gördüğünüz gibi , eksen etiketlerini kasıtlı olarak kaldırdım, bu yüzden sizi hile olmadığım konusunda ikna etmek için etiket eklenmiş grafiklere bakın:

resim açıklamasını buraya girin

Korelasyon ise , matematiksel olarak konuşursak

Corr(X,Y)=Cov(X,Y)Var(X)Var(Y)

sonra doğrusal değişkenler ile

Corr(X,Y)=E[(XμX)(YμY)]σXσY=E[(XμX)(λ0+λ1Xλ0λ1μX)]σXλ1σX=E[(XμX)(λ1Xλ1μX)]σXλ1σX=E[(XμX)λ1(XμX)]σXλ1σX=λ1E[(XμX)(XμX)]σXλ1σX=E[(XμX)(XμX)]σXσX

şimdi bu yana ,Cov(X,X)=Var(X)

=Cov(X,X)σX2=Var(X)Var(X)=1

Standartlaştırılmış değişkenlerle

Corr(ZX,ZY)=E[(ZX0)(ZY0)]1×1=Cov(ZX,ZY)=Var(ZX)=1

beri ...ZX=ZY

Son olarak, Kruschke'nin bahsettiği şeyin , değişkenlerin standartlaştırılmasının Gibbs örnekleyicisi için hayatı kolaylaştırdığı ve sunduğu regresyon modelinde kesişim ve eğim arasındaki korelasyonun azalmasına yol açtığına dikkat edin. Değişkenlerin standartlaştırılmasının değişkenler arasındaki eşbiçimliliği azalttığını söylemez.


0

Standardizasyon, değişkenler arasındaki korelasyonu etkilemez. Tamamen aynı kalırlar. Korelasyon, değişkenlerin yönünün senkronizasyonunu yakalar. Standardizasyonda değişkenlerin yönünü değiştiren hiçbir şey yoktur.

Değişkenleriniz arasındaki çoklu doğrusallığı ortadan kaldırmak istiyorsanız, Temel Bileşen Analizi'ni (PCA) kullanmanızı öneririm. Bildiğiniz gibi PCA, çoklu doğrusallık sorununun giderilmesinde çok etkilidir. Öte yandan PCA, birleşik değişkenleri (temel bileşenler P1, P2, vb.) Oldukça opak hale getirir. PCA modelini açıklamak her zaman daha geleneksel çok değişkenli modelden çok daha zordur.


Modern bir alternatif, genellikle daha iyi, düzenlileştirme.
kjetil b halvorsen

Standart kademeli algoritmalar ve LASSO arasında değişken seçimi test ettim. Ve LASSO çok uzak bir saniyede geliyor. LASSO değişken etkileri cezalandırır, daha güçlü değişkenlere göre zayıf değişkenleri seçebilir. Değişken işaretlerinin değişmesine bile neden olabilir. Ve istatistiksel anlamlılık, Güven Aralıkları ve Tahmin Aralıklarının tüm çerçevesini yıkar. LASSO zaman zaman çalışabilir. Ancak MSE'lere karşı Lambda grafiğine ve Katsayılara karşı Lambda grafiklerine çok dikkatlice bakın. LASSO modelinizin çalışıp çalışmadığını görsel olarak gözlemleyebilirsiniz.
Sympa

0

Kollearlığı azaltmaz, VIF'i azaltabilir. Genel olarak VIF'i, müştereklikle ilgili endişelerin göstergesi olarak kullanıyoruz.

Kaynak: http://blog.minitab.com/blog/adventures-in-statistics-2/what-are-the-effects-of-multicollinearity-and-when-can-i-ignore-them


2
Siteye hoş geldiniz. Şu anda bu bir cevaptan çok bir yorumdur. Belki bağlantıdaki bilgilerin bir özetini vererek genişletebilir veya sizin için bir yoruma dönüştürebiliriz. Buna ek olarak, bağlantılı gönderiyi okumam standartlaştırmanın, kolektifliği azaltmadan VIF'yi azalttığı anlamına gelmiyor. Örnekleri çok spesifik ve bundan daha incelikli.
gung - Monica'yı eski

-3

Standardizasyon, ortak doğrusallığı azaltmanın yaygın bir yoludur. (Birkaç çift değişken üzerinde deneyerek çalıştığını çok hızlı bir şekilde doğrulayabilmelisiniz.) Bunu düzenli olarak yapıp yapmamanız analizlerinizde bir problemin ne kadar olduğuna bağlıdır.

Düzenleme: Hata yaptığımı görüyorum. Yine de standardizasyonun yaptığı şey, ürün terimleriyle (etkileşim terimleri) eşzamanlılığı azaltmaktır.


Hmm, açıklayabilir misin? Standartlaştırma rastgele bir değişkenin ortalamasını ve varyansını değiştirir (sırasıyla 0 ve 1'e). Bu iki değişken arasındaki korelasyonu değiştirmemelidir. Standardizasyonun hesaplama verimliliğini nasıl artırabildiğini görüyorum, ancak çoklu doğrusallığı nasıl azalttığını görmüyorum.
Charlie

Hayır, ben kaybettim ... bu, öngörücülerin matrisindeki sütun öğelerinin doğrusal bağımlılığını nasıl değiştirebilir? (
Kollektifliğin

Standardizasyonun tamamen matematiksel anlamda eşbiçimliliği değiştirmesi doğru olmasa da, doğrusal sistemleri çözmek için algoritmaların sayısal kararlılığını geliştirebilir. Bu cevaptaki karışıklığın kaynağı olabilir.
whuber

Standardizasyon sadece çoklu doğrusallığı azaltmaz. Genellikle değişkenler arasındaki korelasyonu hiç değiştirmez.
Sympa
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.