R doğrusal regresyon kategorik değişkeni “gizli” değer


10

Bu sadece birkaç kez karşılaştığım bir örnektir, bu yüzden örnek verilerim yok. R'de doğrusal regresyon modeli çalıştırmak:

a.lm = lm(Y ~ x1 + x2)

x1sürekli bir değişkendir. x2kategoriktir ve üç değeri vardır, örneğin "Düşük", "Orta" ve "Yüksek". Bununla birlikte, R tarafından verilen çıktı aşağıdaki gibi olacaktır:

summary(a.lm)
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)   0.521     0.20       1.446   0.19        
x1            -0.61     0.11       1.451   0.17
x2Low         -0.78     0.22       -2.34   0.005
x2Medium      -0.56     0.45       -2.34   0.005

R'nin bu tür faktörlere ( x2bir faktör olarak) bir tür kukla kodlama getirdiğini anlıyorum . Merak ediyorum, x2"Yüksek" değerini nasıl yorumlayabilirim ? Örneğin, "Yüksek" x2lerin burada verilen örnekte yanıt değişkeni üzerinde nasıl bir etkisi vardır ?

Bunun başka bir yerinde (örneğin burada ) örnekler gördüm ama anlayabildiğim bir açıklama bulamadım.

r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

3
Burada iyi bir cevap alabilirsiniz, ancak bunu istatistiklere geçiş için işaretleyeceğim.
joran

Evet, bu yeterince adil. Sildim ve kendim taşıysam daha iyi olur mu? Yoksa bu gereksiz mi?

1
Hiçbir şey yapmanıza gerek yok. İşaretledim, ancak bir modun ulaşması bir veya iki saat sürebilir, bir Pazar ve hepsi.
joran

3
Burada cevap vermeyeceğim, çünkü soru taşınacak. Ancak neler olduğunu anlamak için birkaç şey deneyebilirsiniz: 1. lm (Y ~ x1 + x2 - 1) komutunu çalıştırın. "-1" kesmeyi kaldırır. 2. x2'nin referans kategorisini değiştirmek için alaka düzeyini kullanın.
Manoel Galdino

Yanıtlar:


14

S: "..." Yüksek "x2 değerini nasıl yorumlayabilirim? Örneğin," Yüksek "x2s'nin burada verilen örnekte yanıt değişkeni üzerinde nasıl bir etkisi var ??

C: Hiç şüphe yok ki çıktıda x2 = "Yüksek" den bahsedilmedi. Şu anda x2High "temel durum" olarak seçilmiştir. Çünkü insan zihnine daha doğal olarak L / M / H olacak bir sıralamaya rağmen, seviyeler için varsayılan kodlama ile bir faktör değişkeni sundunuz. Ancak alfabedeki hem "L" hem de "M" nin önünde sözcüksel olarak bulunan "H", R tarafından temel durum olarak seçilmiştir.

'X2' sipariş edilmediğinden, bildirilen kontrastların her biri x2 = "Yüksek" ile ilişkiliydi ve bu nedenle x2 == "Düşük", x2 = "Yüksek" değerine göre -0.78 olarak hesaplandı. Şu anda x2 = "Yüksek" ve x1 = 0 olduğunda Kesişme "Y" değerinin tahmini değeridir. Muhtemelen seviyeler sırasını değiştirdikten sonra regresyonunuzu tekrar çalıştırmak istersiniz (ancak sipariş edilen faktörü belirlemezsiniz).

x2a = factor(x2, levels=c("Low", "Medium", "High"))

O zaman 'Orta' ve 'Yüksek' tahmininiz beklediğinizle daha uyumlu olacaktır.

Düzenleme: Alternatif kodlama düzenlemeleri (veya model matrisinin daha doğru bir şekilde düzenlenmesi) vardır. R'deki kontrastlar için varsayılan seçim, referans seviyesi ve raporlar olarak bir faktör seviyesini (veya faktör seviyelerinin belirli bir kombinasyonunu) belirten "tedavi kontrastları" dır. diğer seviyeler veya kombinasyonlar için tahmini ortalama farklar. Bununla birlikte, kesme seviyesini 0 (tavsiye edilmez) olmaya zorlayarak veya diğer kontrast seçeneklerinden birini kullanarak referans seviyesinin genel ortalama olmasını sağlayabilirsiniz:

?contrasts
?C   # which also means you should _not_ use either "c" or "C" as variable names.

Farklı faktörler için farklı kontrastlar seçebilirsiniz, ancak bunu yapmak ek bir yorumlayıcı yük getirecektir. S-Plus varsayılan olarak Helmert kontrastlarını kullanır ve SAS tedavi kontrastlarını kullanır, ancak referans seviyesi olarak birinciden ziyade son faktör seviyesini seçer.


Mantıklı. Açıkçası x2"Yüksek", "Orta" veya "Düşük" den biri olması gerektiği için "değer" alamadığını varsayalım . Cevabınız için teşekkürler.
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.