Çoklu doğrusallık kategorik değişkenlerde örtük mü?


10

Küçük ama fark edilir çoklu bağlantı etkisi vardı çok değişkenli regresyon modelini düzeltmeye ederken, varyans enflasyon faktörler tarafından ölçülen ben fark dahilinde (tabii referans kategorisini hariç sonra) bir kategorik değişkenin kategorilerine.

Örneğin, sürekli değişkeni y olan bir veri setimiz ve karşılıklı olası münhasır değerleri k olan bir nominal kategorik x değişkeni olduğunu varsayalım. Bu olası değerleri 0/1 kukla değişkenleri . Sonra bir regresyon modeli çalıştırıyoruz . kukla değişkenleri için VIF skorları sıfırdan farklıdır. Aslında, kategori sayısı arttıkça, VIF'ler de artar. Sahte değişkenleri ortalamak VIF'leri değiştirmiyor gibi görünüyor.x 1 , x 2 , , x k y = b 0 + b 1 x 1 + b 2 x 2 + + b k - 1kx1,x2,,xk k - 1y=b0+b1x1+b2x2++bk1xk1k1

Sezgisel açıklama, kategorik değişken içindeki kategorilerin karşılıklı olarak münhasır koşulunun, bu hafif çoklu doğrusallığa neden olduğu görülmektedir. Bu önemsiz bir bulgu mu yoksa kategorik değişkenli regresyon modelleri oluştururken dikkate alınması gereken bir konu mu?

Yanıtlar:


8

Bu fenomeni tam olarak üretemiyorum, ancak kategori sayısı arttıkça VIF'nin mutlaka artmadığını gösterebilirim .

Sezgi basittir: kategorik değişkenler uygun deneysel tasarımlarla dikleştirilebilir. Bu nedenle, genel olmalı hiçbir kategori ve çoklu doğrusal sayıları arasındaki ilişki.

Aşağıda, Rkategoriler için tanımlanabilir sayıda kategori (iki bağımsız değişken için) ve her bir kategori için belirtilebilir çoğaltma miktarına sahip kategorik veri kümeleri oluşturma işlevi bulunur. Her kategori kombinasyonunun eşit sayıda gözlemlendiği dengeli bir çalışmayı temsil eder , :n

trial <- function(n, k1=2, k2=2) {
  df <- expand.grid(1:k1, 1:k2)
  df <- do.call(rbind, lapply(1:n, function(i) df))
  df$y <- rnorm(k1*k2*n)
  fit <- lm(y ~ Var1+Var2, data=df)
  vif(fit)
}

Bunu uygulayarak, VIF'lerin her zaman mümkün olan en düşük değerlerinde olduğunu görüyorum , , dengelemeyi yansıtıyor (tasarım matrisindeki dikey sütunlara dönüşüyor ). Bazı örnekler:1

sapply(1:5, trial) # Two binary categories, 1-5 replicates per combination
sapply(1:5, function(i) trial(i, 10, 3)) # 30 categories, 1-5 replicates

Bu , tasarımdaki artan dengesizlik nedeniyle çoklu doğrusallığın artmakta olabileceğini düşündürmektedir . Bunu test etmek için satırı ekleyin

  df <- subset(df, subset=(y < 0))

önce fitsatır trial. Bu, verilerin yarısını rastgele kaldırır. Yeniden koşu

sapply(1:5, function(i) trial(i, 10, 3))

VIF'lerin artık eşit olmadığını gösterir (ancak rasgele yakınında kalırlar). Daha fazla kategori ile hala artmıyorlar: karşılaştırılabilir değerler üretir.1sapply(1:5, function(i) trial(i, 10, 10))


2

Sen görebilirsiniz kısıtlaması, yani o bir ve sadece bir multinomial dağılımlar doğasında olan var s 1 olacak ve lineer sınırlamasına sahip Yani her şey 0 olacaktır . Bu , toplamın üzerinden alındığı demek . Bu farkettiğiniz kollearlık etkisidir. Bu konuda olağandışı veya rahatsız edici bir şey yok.xixi=1x1=1xii1


Çok durumlu dağılımların bu durumla ne ilgisi olduğunu anlamıyorum. Açıklayabilir misiniz?
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.