R'de faktörlerle doğrusal regresyon


10

R faktörleri tam olarak nasıl çalıştığını anlamaya çalışıyorum Diyelim ki bazı örnek verileri R kullanarak bir regresyon çalıştırmak istiyorum:

> data(CO2)
> colnames(CO2)
[1] "Plant"     "Type"      "Treatment" "conc"      "uptake"   
> levels(CO2$Type)
[1] "Quebec"      "Mississippi"
> levels(CO2$Treatment)
[1] "nonchilled" "chilled"   
> lm(uptake ~ Type + Treatment, data = CO2)

Call:
lm(formula = uptake ~ Type + Treatment, data = CO2)

Coefficients:
 (Intercept)   TypeMississippi  Treatmentchilled  
       36.97            -12.66             -6.86  

Anlıyorum TypeMississippive Treatmentchilledboolelerde olarak ele alınır: her satır için, başlangıç alımı olduğunu 36.97ve biz çıkarmak 12.66o tip Mississippi ise ve 6.86o soğutulmuş olsaydı. Böyle bir şeyi anlamakta güçlük çekiyorum:

 > lm(uptake ~ Type * Treatment, data = CO2)

 Call:
 lm(formula = uptake ~ Type * Treatment, data = CO2)

 Coefficients:
                 (Intercept)                   TypeMississippi  
                      35.333                            -9.381  
            Treatmentchilled  TypeMississippi:Treatmentchilled  
                      -3.581                            -6.557  

İki faktörü bir ile çarpmak ne anlama geliyor lm?

Yanıtlar:


17

@ John'un cevabını ayrıntılı olarak açıklamak için: R'nin formüllerinde, terimlere uygulayabileceğiniz birkaç operatörünüz var: "+" basitçe bunları ekler ",": etkileşimlerine atıfta bulunan bir terim (veya birkaç terim) aşağıya bakınız), "*" her ikisini ifade eder, yani: "ana etkiler" eklenir ve etkileşim terimleri de eklenir.

Peki bu etkileşim ne anlama geliyor? Sürekli değişkenler söz konusu olduğunda, aslında iki değişkenin katları olan eklenen bir terimdir. Eğer yordayıcılar olarak boy ve kilonuz varsa ve out ~ height * weightformül olarak kullanırsanız , lineer model ağırlık, boy ve ürünleri olmak üzere üç 'değişken' içerecektir (bu da etkileşimi içerir, ancak burada daha az ilgi çekicidir).

Yukarıda başka türlü önermekle birlikte: bu, kategorik değişkenler için tamamen aynı şekilde çalışır, ancak şimdi 'ürün', her kategorik değişken için (dizi) kukla değişken (ler) için geçerlidir. Boy ve kilonuzun artık kategorik olduğunu varsayalım, her biri üç kategoriye (S (alışveriş merkezi), M (edium) ve L (arge)) sahip. Daha sonra doğrusal modellerde, bunların her biri 0 veya 1 olan iki kukla değişkenle temsil edilir (başka kodlama yolları da vardır, ancak bu R'de varsayılan ve en yaygın olarak kullanılan yöntemdir). Her ikisinde de referans kategorisi olarak S kullandığımızı varsayalım, o zaman her seferinde iki kukla yüksekliği M ve yükseklik var. L (ve ağırlık için benzer).

Şimdi, model out ~ height * weightşimdi 4 manken + tüm manken kombinasyonlarının tüm ürünlerini içeriyor (burada katsayıları açıkça yazmıyorum, ima ediliyorlar):

(intercept) + height.M + height.L + weight.M + weight.L + height.M * weight.M + height.L * weight.M + height.M * weight.L + height.L * weight.L.

Yukarıdaki satırda, '*' şimdi tekrar basit bir ürüne atıfta bulunmakta, ancak mankenlerin bu zamanıdır, bu nedenle her ürünün kendisi de 1'dir (tüm faktörler 1 olduğunda) veya 0 (en az biri olmadığında).

Bu durumda 8 'değişken', iki değişkenin tüm kombinasyonlarında farklı (ortalama) sonuçlar sağlar: büyük ağırlığa sahip olmanın etkisi artık küçük insanlar için aynı değildir (onlar için etki terim tarafından basitçe oluşturulur weight.L) büyük insanlar için (burada, etki weight.L + height.L * weight.L)


7

John'un cevabını takip etmek için, lm'deki formüller aritmetik notasyonu kullanmaz, doğrusal modelleri tanımlamak için kompakt bir sembolik notasyon kullanırlar (özellikle Wilkinson-Rogers notasyonu, burada iyi bir kısa özet var http: //www.physiol .ox.ac.uk / ~ raac / R.shtml ).

Temel olarak, model formülüne A * B eklemek, A, B ve A: B'yi (A ve B'nin etkileşimi) taktığınız anlamına gelir. Etkileşim terimi istatistiksel olarak anlamlıysa, tedavinin etkisinin tiplerin her biri için farklı olduğunu gösterir.


3

Belki de yardımda 'formül' aramak yararlı olabilir. Çoğalmıyorsunuz, iki ana etkiyi ve etkileşimlerini de istediğinizi söylüyorsunuz.


1
(+1) bana bir yorum gibi geliyor.
Dmitrij Celov
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.