Kontrast matrisi nedir?


46

Kontrast matrisi tam olarak nedir (kategorik yordayıcılarla yapılan bir analize ilişkin bir terim) ve kontrast matrisi tam olarak nasıl belirtilir? Yani, sütun nedir, satır nedir, bu matristeki kısıtlamalar nelerdir ve sütun jve satırdaki sayı ne anlama igelir? Dokümanlara ve web’e bakmaya çalıştım ama görünen o ki, herkes onu kullanıyor ama hiçbir yerde savunma yok. Mevcut önceden tanımlanmış kontrastları geriye doğru tasarlayabilirdim, ancak tanımın onsuz mevcut olması gerektiğini düşünüyorum.

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1
> contr.sum(4)
  [,1] [,2] [,3]
1    1    0    0
2    0    1    0
3    0    0    1
4   -1   -1   -1
> contr.helmert(4)
  [,1] [,2] [,3]
1   -1   -1   -1
2    1   -1   -1
3    0    2   -1
4    0    0    3
> contr.SAS(4)
  1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 0 0

Modellemede kategorik IV'leri (faktörleri) temsil etmek için "Kontrast matrisi" kullanılır. Özellikle, bir faktörü "kontrast değişkenleri" kümesine yeniden kodlamak için kullanılır (yapay değişkenler sadece bir örnek olarak). Her bir kontrast değişkeni tipinin kendine ait kontrast matrisi vardır. Örneğin , henüz yanıtlanmayan kendi ilgili soruma bakın .
ttnphns,

5
@ttnphns Üzgünüz, ancak tüm dokümanlar ve web'lerin yaptıklarını yapmaya devam edersiniz: Kontrast matrisinin ne olduğunu sormadan, kontrast matrislerinin ne olduğunu açıklarsınız . Bir tanımın amacı budur .
Merakla

3
Tabii ki ilgili, ancak “ne” den “ne” için ihtiyaç duyulduğunu türetmek, bir dedektifin işi olması gerekmiyor. Bu tersine mühendislik. Her şey belgelenmelidir.
Meraklı

2
ats.ucla.edu/stat/r/library/contrast_coding.htmR kodlama yöntemleri konusunda iyi yönlendirilmiş bir kaynaktır.
whuber

1
@Curious, sadece bilmeni sağlamak için: ttnphns'a 100 lütuf verdim, fakat Gus_est'i de ödüllendirmek için başka bir lütuf başlatacağım (veya başkasından birinden ricada bulunacağım). Ben de kendi cevabımı yazdım, sadece daha kısa bir tanesine sahip olmayı tercih ediyorsanız :-)
amip Reinstate Monica

Yanıtlar:


31

Hoş cevaplarında, @Gus_est, kontrast katsayısı matrisinin L (orada bir C ile belirtilmiş ) özünün matematiksel bir açıklamasını yaptı . tek değişkenli genel doğrusal modellemede hipotezleri sınamak için temel formüldür (burada parametrelerdir ve boş bir hipotezi temsil eden tahmin edilebilir bir işlevdir) ve bu cevap modern ANOVA programlarında kullanılan bazı gerekli formülleri gösterir.bLb=kbk

Cevabım çok farklı tarz. Kendisini bir matematikçi olarak değil de bir "mühendis" olarak gören bir veri analisti içindir; bu nedenle cevap (yüzeysel) "pratik" veya "didaktik" bir hesap olacaktır ve sadece konulara cevap vermeye odaklanacaktır (1) kontrast katsayıları ortalama (2) lineer regresyon programı ile ANOVA'yı gerçekleştirmek için nasıl yardımcı olabileceklerini ifade eder .

Kukla değişkenlerle regresyon olarak ANOVA: karşıtlıkları ortaya koymak .

Bağımlı değişken Y ve ANOVA'yı 3 seviyeli (grup) kategorik faktör A ile hayal edelim . ANOVA'ya doğrusal regresyon bakış açısıyla bakalım, yani - faktörü kukla (aka gösterge aka tedavi aka bir sıcak ) ikili değişkenler kümesine dönüştürerek . Bu bizim bağımsız kümesidir X . (Muhtemelen herkes ANOVA'yı bu şekilde yapmanın mümkün olduğunu duymuştur - kukla tahmincilerle doğrusal regresyon olarak.)

Üç gruptan biri gereksiz olduğundan, yalnızca iki kukla değişken doğrusal modele girer. Group3'ü gereksiz veya başvuru olarak atayalım. X'i oluşturan kukla tahminciler kontrast değişkenlerinin bir örneğidir , yani bir faktörün kategorilerini temsil eden temel değişkenler. X'in kendisine genellikle tasarım matrisi denir. Şimdi veri kümesini, verileri merkezleyen ve regresyon katsayılarını (parametreleri) bulabilen çoklu bir doğrusal regresyon programına , " + "sahte olmayanı belirtir.b=(XX)1Xy=X+y

Eşdeğer geçiş, merkezleme yapmak değil, modelin sabit terimini X'deki ilk 1 s sütunu olarak eklemek , ardından katsayıları yukarıdaki gibi hesaplamak . Çok uzak çok iyi.b=(XX)1Xy=X+y

C matrisini bağımsız değişkenler tasarım matrisi X'in toplamı (özetlenmesi) olarak tanımlayalım . - Bu sadece Şekil bize kodlama şeması vardır, gözlenen matris kodlama kontrast (= baz matrisi) .C=aggrX

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1     0     0

Kolonlar, X'in değişkenleridir (sütunlar) - temel kontrast değişkenleri A1 A2, bu durumda kukladır ve sıralar, faktörün tüm grupları / seviyeleridir. Bu yüzden gösterge veya yapay kontrast kodlama şeması için kodlama matrisimiz C idi .

Şimdi, , kontrast katsayısı matrisi veya L matrisi olarak adlandırılır. Yana kare, . Kontrast matrisi eden tekabül eden C - için gösterge Örneğimizde tezat - bu nedenle:L = C + = C - 1C+=LL=C+=C1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const      0     0     1            => Const = Mean_Gr3
A1         1     0    -1            => Param1 = Mean_Gr1-Mean_Gr3
A2         0     1    -1            => Param2 = Mean_Gr2-Mean_Gr3

L matrisi, kontrast katsayısını gösteren matristir . Her satırdaki kontrast katsayılarının toplamının (Sabit satır hariç) . Bu tür her satıra kontrast denir . Satırlar kontrast değişkenlerine karşılık gelir ve sütunlar gruplara, faktör seviyelerine karşılık gelir.0

Kontrast katsayılarının önemi, her bir etkinin ( X ile regresyonda tahmin edilen her bir b parametresi olduğu gibi) fark anlamında (grup karşılaştırması) neyi temsil ettiğini anlamaya yardımcı olmalarıdır . Derhal, katsayıları takip ederek, tahmini Sabit'in referans grubundaki Y ortalamasına eşit olacağını görüyoruz; bu b1 parametresi (yani kukla değişken Al), farka eşit olacaktır: grup1'deki Y ortalaması, grup3'deki Y ortalaması; ve b2 parametresi farkıdır: grup2'deki ortalama eksi grup3'teki ortalama.

Not : sağ yukarıda (ve ayrıca aşağıda) biz demek "demek" diyen tahmini (model tarafından tahmin) bir grup değil, bir gruptaki gözlemlenen ortalama için ne anlama.

Bir öğretici not : İkili yordayıcı değişkenleri tarafından bir regresyon yaptığımız zaman , böyle bir değişkenin parametresi Y değişkenindeki değişken = 1 ve değişken = 0 grupları arasındaki farkı belirtir. Bununla birlikte, ikili değişkenlerin a- seviyeli bir faktörü temsil eden k-1 kukla değişkenler kümesi olduğu durumlarda k, parametrenin anlamı daralır : değişkende Y değişkenliğini = 1 ile değişken arasında gösterir (sadece değişken = 0 değil, hatta) reference_variable = 1 grup.

Gibi (çarpı sonra ) bize ait değerleri getiren b benzer şekilde anlamlarından getirir b . y ( a g g r X ) +X+y(aggrX)+

Tamam, L kontrast katsayısı matrisinin tanımını verdik . beri , simetrik olarak , yani kategorik faktöre dayalı bir L kontrast matrisi oluşturduysanız veya oluşturduysanız (s) - analizinizde L' yi test etmek için, o zaman L'yi sıradan bir regresyon yazılımıyla test etmek için kontrast tahmin değişkenleri X'in doğru şekilde nasıl kodlanacağına dair bir ipucunuz var (yani sadece "sürekli" işlem yapan standart OLS değişkenleri yol, ve kategorik faktörleri hiç tanımıyor). Mevcut örneğimizde kodlama - gösterge (yapay) tip değişkenlerdi. C = L + = L - 1L=C+=C1C=L+=L1

Regresyon olarak ANOVA: diğer kontrast tipleri .

Kategorik bir faktör A için diğer kontrast tiplerini (kodlama şemaları, = parametre stilleri) kısaca inceleyelim .

Sapma veya etki kontrastları . C ve L matrisleri ve parametre anlamı:

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1    -1    -1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3      => Const = 1/3Mean_Gr3+1/3Mean_Gr2+1/3Mean_Gr3 = Mean_GU
A1        2/3  -1/3  -1/3      => Param1 = 2/3Mean_Gr1-1/3(Mean_Gr2+Mean_Gr3) = Mean_Gr1-Mean_GU
A2       -1/3   2/3  -1/3      => Param2 = 2/3Mean_Gr2-1/3(Mean_Gr1+Mean_Gr3) = Mean_Gr2-Mean_GU

                                  Parameter for the reference group3 = -(Param1+Param2) = Mean_Gr3-Mean_GU

                                  Mean_GU is grand unweighted mean = 1/3(Mean_Gr1+Mean_Gr2+Mean_Gr3)

Sapma kodlaması ile, faktörün her bir grubu ağırlıklandırılmamış büyük ortalama ile karşılaştırılırken, Constant bu büyük ortalamadır. Bu, X sapma ya da efekti şeklinde "kodlama" kodlu kontrast prediktörleriyle regresyonda elde ettiğiniz şeydir .

Basit kontrastlar . Bu kontrast / kodlama şeması gösterge ve sapma tiplerinin bir melezidir, sapma tipinde olduğu gibi Constant anlamını ve gösterge tipinde olduğu gibi diğer parametrelerin anlamını verir:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3  -1/3
Gr2 (A=2)       1  -1/3   2/3
Gr3 (A=3,ref)   1  -1/3  -1/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = as in Deviation
A1         1     0    -1         => Param1 = as in Indicator
A2         0     1    -1         => Param2 = as in Indicator

Helmert zıtlıkları . Her grubu (referans hariç) sonraki grupların ağırlıksız ortalaması ile karşılaştırır ve Constant ağırlıksız büyük ortalamasıdır. C ve L meseleleri:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3    0
Gr2 (A=2)       1  -1/3   1/2
Gr3 (A=3,ref)   1  -1/3  -1/2

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1   -1/2  -1/2        => Param1 = Mean_Gr1-1/2(Mean_Gr2+Mean_Gr3)
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Fark veya ters Helmert kontrastları . Her grubu (referans hariç) önceki grupların ağırlıksız ortalaması ile karşılaştırır ve Constant ağırlıksız büyük ortalamadır.

C
              Const  A1    A2
Gr1 (A=1)       1  -1/2  -1/3
Gr2 (A=2)       1   1/2  -1/3
Gr3 (A=3,ref)   1    0    2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1        -1     1     0         => Param1 = Mean_Gr2-Mean_Gr1
A2       -1/2  -1/2    1         => Param2 = Mean_Gr3-1/2(Mean_Gr2+Mean_Gr1)

Tekrarlanan kontrastlar . Her grubu (referans hariç) sonraki grupla karşılaştırır ve Constant ağırlıksız genel ortalamadır.

C
              Const  A1    A2
Gr1 (A=1)       1   2/3   1/3
Gr2 (A=2)       1  -1/3   1/3
Gr3 (A=3,ref)   1  -1/3  -2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1    -1     0         => Param1 = Mean_Gr1-Mean_Gr2
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Soru sorar: how exactly is contrast matrix specified?Şimdiye kadar ana hatlarıyla gösterilen kontrast türlerine bakmak nasıl mümkün olduğunu kavramak için mümkün. Her türün L' deki değerlerin nasıl "doldurulacağı" mantığına sahiptir . Mantık, her parametrenin ne anlama geldiğini yansıtır - karşılaştırılması planlanan iki grup kombinasyonu nedir.

Polinom kontrastları . Bunlar biraz özel, doğrusal olmayan. İlk etki doğrusaldır, ikincisi ikinci dereceden, sonraki ise kübiktir. Ben burada onların C ve L matrislerinin nasıl oluşturulacağı ve birbirlerinin tersi olup olmadığı sorusunu hesaba katmam . Lütfen, Antoni Parellada'nın bu tür bir kontrastla ilgili açıklamalarına derin bir danışın: 1 , 2 .

Dengeli tasarımlarda Helmert, ters Helmert ve polinom kontrastları her zaman dikey kontrastlardır . Yukarıda ele alınan diğer tipler ortogonal kontrast değildir. Ortogonal (dengenin altında), her satırdaki kontrast matrisinin L toplamının (Const hariç) sıfır olduğu ve her bir sıra çiftinin karşılık gelen elemanlarının ürünlerinin toplamının sıfır olduğu kontrasttır .

Test edemediğim polinom hariç, farklı kontrast tiplerinde açı benzerliği ölçümleri (kosinüs ve Pearson korelasyonu). kDüzeyleri olan tek faktör A'ya sahip olalım ve sonra k-1belirli bir tipteki kontrast değişkenleri kümesine yeniden kodlandı . Bu kontrast değişkenleri arasındaki korelasyon veya kosinüs matrisindeki değerler nelerdir?

                     Balanced (equal size) groups     Unbalanced groups
Contrast type             cos        corr              cos        corr

INDICATOR                  0       -1/(k-1)             0         varied
DEVIATION                 .5          .5              varied      varied
SIMPLE                 -1/(k-1)    -1/(k-1)           varied      varied
HELMERT, REVHELMERT        0           0              varied      varied
REPEATED                varied   =  varied            varied      varied

   "=" means the two matrices are same while elements in matrix vary

Bilgi almak için masayı veriyorum ve açık bırakıyorum. Genel lineer modellemeye daha derin bir bakış için biraz önemlidir.

Kullanıcı tanımlı kontrastlar . Özel bir karşılaştırma hipotezini test etmek için oluşturduğumuz şey budur. Normalde her biri hariç, ancak ilk L sırasının toplamı 0 olmalıdır, bu, iki ya da iki grup kompozisyonunun bu sırada karşılaştırıldığı anlamına gelir (yani bu parametre ile).

Sonuçta model parametreleri nerede ?

Bunlar satırlar mı yoksa L sütunları mı? Yukarıdaki metin boyunca, parametrelerin L satırlarına karşılık geldiğini söyledim , çünkü satırlar kontrast değişkenleri olan öngörücüleri temsil ediyordu. Sütunlar bir faktörün seviyesiyken, gruplar. Bu, örneğin, @Gus_est cevabındaki teorik blok ile çelişkili görünebilir, burada sütunlar parametrelere açıkça karşılık gelir:

H0:[011000011000011][β0β1β2β3β4]=[000]

Aslında, hiçbir çelişki yoktur ve “sorunun” cevabı şudur: kontrast katsayısı matrisinin hem satırları hem de sütunları parametrelere karşılık gelir! Sadece kontrastların (kontrast değişkenleri), satırların başlangıçta faktör seviyelerinden başka hiçbir şeyi temsil etmeyecek şekilde yaratıldığını hatırlayın: bunlar atlanan referans hariç seviyelerdir. Basit kontrast için lütfen L-matrisin bu iki eşdeğeri yazımını karşılaştırın:

L
          Gr1   Gr2   Gr3
          A=1   A=2   A=3(reference)
Const     1/3   1/3   1/3 
A1         1     0    -1  
A2         0     1    -1   

L
            b0    b1    b2    b3(redundant)
           Const  A=1   A=2   A=3(reference)
b0  Const   1    1/3   1/3   1/3 
b1  A1      0     1     0    -1  
b2  A2      0     0     1    -1   

İlki daha önce gösterdiklerim, ikincisi daha "teorik" (genel doğrusal model cebir için) yerleşim düzeni. Basitçe, Constant terimine karşılık gelen bir sütun eklendi. Parametre katsayıları b , satırları ve sütunları etiketler. Yedek olarak b3 parametresi sıfıra ayarlanır. Kodlama matrisini ( C) almak için ikinci mizanpaja geçebilirsiniz , burada sağ alt kısımda hala A1 ve A2 kontrast değişkenleri için doğru kodları bulabilirsiniz. Açıklanan herhangi bir kontrast tipi için böyle olacaktır (gösterge tipi hariç - böyle dikdörtgen düzenin sahte kısmının doğru sonuç vermeyeceği; bu nedenle muhtemelen kolaylık için basit kontrast tipinin icat edilmesinin nedeni budur: gösterge tipine benzer kontrast katsayıları, ancak sıra Sabit).

Kontrast tipi ve ANOVA tablosu sonuçları .

ANOVA tablosu, birleştirilmiş (toplanmış) - örneğin faktör A'nın ana etkisi , yani kontrastların temel etkilere, kontrast değişkenleri - A1, A2 ve (atlanmış, referans) A3'e karşılık gelen etkileri gösterir. Temel terimler için parametre tahminleri, seçilen kontrastın türüne bağlıdır, ancak birleşik sonuç - ortalama karesi ve anlamlılık düzeyi - tür ne olursa olsun aynıdır. Omnibus ANOVA (örneğin, tek yönlü), A'nın üç yolunun hepsinin eşit olduğuna dair boş hipotez, birkaç eşdeğer ifadede ortaya konabilir ve her biri belirli bir kontrast türüne karşılık gelir: = tekrarlanan tip; = Helmert türü; ( μ 1 = μ 23 , μ 2 = μ 3 ) ( μ 1 = μ 123 , μ 2 = μ 123 )(μ1=μ2,μ2=μ3)(μ1=μ23,μ2=μ3)(μ1=μ123,μ2=μ123)= Sapma tipi; = gösterge veya basit türler.(μ1=μ3,μ2=μ3)

Genel doğrusal model paradigması ile uygulanan ANOVA programları hem ANOVA tablosunu (birleşik etkiler: ana, etkileşimler) hem de parametre tahmin tablosunu (temel etkiler b ) görüntüleyebilir. Bazı programlar, kullanıcı tarafından teklif edilen kontrast türüne karşılık gelen ikinci tabloyu verebilir, ancak çoğu genel lineer modele dayalı ANOVA programları özellikle kukla değişkenleri parametrelediği için çoğu zaman bir türe karşılık gelen parametreleri gösterir - genellikle gösterge türü Yapmak) ve sonra sabit kukla girdiyi (keyfi) bir kontrastla yorumlayan özel "bağlantı" formüllerini kullanarak kontrastları değiştirin.

Cevabımda - ANOVA'yı regresyon olarak gösteren - "bağlantı", veriler için uygun kodlama şeması kavramını tanıtmak için çağrılan X girdisi kadar erken gerçekleşmiştir .

ANOVA testini gösteren birkaç örnek olağan regresyon ile tezat oluşturuyor .

SPSS’de ANOVA’da bir kontrast türü gösteriliyor ve aynı sonuç lineer regresyon ile gösteriliyor. Y ile bazı veri kümelerimiz var ve faktör A (3 seviye, referans = son) ve B (4 seviye, referans = son); daha sonra aşağıdaki verileri bulun.

Sapma , tam faktoring modeli altındaki örneği (A, B, A * B) karşılaştırır. Hem A hem de B için talep edilen sapma tipi (bilgileriniz için her faktör için farklı tip talep edebiliriz).

A ve B için L kontrast katsayısı matrisi :

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
dev_a1    .6667   -.3333   -.3333
dev_a2   -.3333    .6667   -.3333

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
dev_b1    .7500   -.2500   -.2500   -.2500 
dev_b2   -.2500    .7500   -.2500   -.2500 
dev_b3   -.2500   -.2500    .7500   -.2500

ANOVA programından ( GLMSPSS'de) varyans analizi yapmasını ve sapma kontrastları için açık sonuçlar çıkmasını isteyin :

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Sapma kontrast tipi, A = 1 ile Grand ağırlıklı ağırlıklı Ortalama ve A = 2 aynı Ortalama ile karşılaştırıldı. Kırmızı elipsler fark tahminlerini ve p değerlerini belirtir. A faktörü üzerindeki birleşik efekt kırmızı dikdörtgen ile işaretlenmiştir. B faktörü için, her şey mavi renkte benzer şekilde mürekkeplenir. Ayrıca ANOVA tablosunu gösteriliyor. Birleşik kontrast efektlerinin içindeki ana efektlere eşit olduğunu unutmayın.

görüntü tanımını buraya girin

Şimdi fiziksel olarak kontrast değişkenleri dev_a1, dev_a2, dev_b1, dev_b2, dev_b3 oluşturalım ve regresyonu çalıştıralım. Kodlama C matrislerini elde etmek için L- matrislerini ters çevirin :

      dev_a1   dev_a2
A=1   1.0000    .0000 
A=2    .0000   1.0000 
A=3  -1.0000  -1.0000

      dev_b1   dev_b2   dev_b3
B=1   1.0000    .0000    .0000 
B=2    .0000   1.0000    .0000 
B=3    .0000    .0000   1.0000 
B=4  -1.0000  -1.0000  -1.0000

Bunların (Constant) sütunu atlanmıştır: çünkü düzenli regresyon programını kullanacağız (dahili olarak değişkenleri merkezleyen ve aynı zamanda tekilliğe karşı toleranssız olan) değişken Constant'e ihtiyaç duyulmayacak. Şimdi X verisini yaratın : aslında faktörlerin bu değerlere manuel olarak kaydedilmesi gerekmiyor, tek vuruşlu çözüm , burada gösterge (kukla) değişkenler, tüm sütunlar ( seviye sayısı bir faktörde).DX=DCDkk

Kontrast değişkenlerini yarattıktan sonra, etkileşimleri temsil eden değişkenleri elde etmek için farklı faktörlerden olanlarla çarpın (ANOVA modelimiz tam faktörlü idi): dev_a1b1, dev_a1b2, dev_a1b3, dev_a2b1, dev_a2b2, dev_a2b3. Ardından, tüm yordayıcılarla çoklu doğrusal regresyon çalıştırın.

görüntü tanımını buraya girin

Beklendiği gibi, dev_a1 "Seviye 1 - Ortalama" kontrastındaki etkiyle aynıdır; dev_a2, "Seviye 2 - Ortalama", vb. ile aynıdır - mürekkeplenen parçaları yukarıdaki ANOVA kontrast analizi ile karşılaştırın.

Eğer dev_a1b1, dev_a1b2 ... regresyonda etkileşim değişkenleri kullanmıyorsak, sonuçların sadece ana etkiler-ANOVA kontrast analizi sonuçlarıyla çakışacağını unutmayın.

Basit , tam faklı model (A, B, A * B) altındaki örnek.

A ve B için L kontrast katsayısı matrisi :

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
sim_a1   1.0000    .0000  -1.0000
sim_a2    .0000   1.0000  -1.0000

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
sim_b1   1.0000    .0000    .0000  -1.0000
sim_b2    .0000   1.0000    .0000  -1.0000
sim_b3    .0000    .0000   1.0000  -1.0000

Basit kontrastlar için ANOVA sonuçları:

görüntü tanımını buraya girin

görüntü tanımını buraya girin

Genel sonuçlar (ANOVA tablosu) sapma kontrastlarıyla aynıdır (şu anda görüntülenmiyor).

Fiziksel olarak kontrast değişkenleri oluşturun: sim_a1, sim_a2, sim_b1, sim_b2, sim_b3. Kodlama matrisleri, L matrislerinin tersine çevrilmesiyle bulunur (Const sütun olmadan):

      sim_a1   sim_a2
A=1    .6667   -.3333
A=2   -.3333    .6667
A=3   -.3333   -.3333

      sim_b1   sim_b2   sim_b3
B=1    .7500   -.2500   -.2500
B=2   -.2500    .7500   -.2500
B=3   -.2500   -.2500    .7500
B=4   -.2500   -.2500   -.2500

verisini oluşturun ve orada ana etki kontrast değişkenlerinin ürünleri olarak etkileşim kontrast değişkenlerini sim_a1b1, sim_a1b2, ... etc ekleyin. Regresyonu gerçekleştirin.X=DC

görüntü tanımını buraya girin

Daha önce olduğu gibi, regresyon ve ANOVA sonuçlarının eşleştiğini görüyoruz. Basit bir kontrast değişkeninin bir regresyon parametresi, faktörün seviyesi ile referans (bizim örneğimizin sonuncusu) seviyesi arasındaki farktır (ve önemlilik testi).

Örneklerde kullanılan iki faktörlü veriler:

     Y      A      B
 .2260      1      1
 .6836      1      1
-1.772      1      1
-.5085      1      1
1.1836      1      2
 .5633      1      2
 .8709      1      2
 .2858      1      2
 .4057      1      2
-1.156      1      3
1.5199      1      3
-.1388      1      3
 .4865      1      3
-.7653      1      3
 .3418      1      4
-1.273      1      4
1.4042      1      4
-.1622      2      1
 .3347      2      1
-.4576      2      1
 .7585      2      1
 .4084      2      2
1.4165      2      2
-.5138      2      2
 .9725      2      2
 .2373      2      2
-1.562      2      2
1.3985      2      3
 .0397      2      3
-.4689      2      3
-1.499      2      3
-.7654      2      3
 .1442      2      3
-1.404      2      3
-.2201      2      4
-1.166      2      4
 .7282      2      4
 .9524      2      4
-1.462      2      4
-.3478      3      1
 .5679      3      1
 .5608      3      2
1.0338      3      2
-1.161      3      2
-.1037      3      3
2.0470      3      3
2.3613      3      3
 .1222      3      4

Kullanıcı tanımlı kontrast örneği. 5 seviyeli tek faktör F'ye sahip olalım . ANOVA'da ve regresyonda bir dizi özel ortogonal kontrast oluşturacağım ve test edeceğim.

görüntü tanımını buraya girin

Resim, 4 ortogonal kontrast elde etmek için 5 grup arasında birleştirme / bölme işlemini (mümkün olanlardan biri) göstermektedir ve bu işlemden kaynaklanan L kontrast katsayıları matrisi sağ taraftadır. Bütün kontrastlar birbirine diktir: köşegendir. (Bu örnek şema yıllar önce D. Howell'in psikolog İstatistikleri kitabından kopyalanmıştır.)LL

Kontrastları test etmek için matrisi SPSS 'ANOVA prosedürüne gönderelim. Eh, matristen herhangi bir satır (kontrast) bile gönderebiliriz, ancak matrisin tamamını göndeririz çünkü - önceki örneklerde olduğu gibi - aynı sonuçları regresyon yoluyla almak isteyeceğiz ve regresyon programının tam olarak gerekmesi gerekecek kontrast değişkenleri kümesi (bir araya getirildiklerinin farkında olmak için!). Sabit satırı L'ye ekleyeceğiz, daha önce yaptığımız gibi, ancak araya girip girmediğimizi test etmemize gerek kalmazsa bunu kesinlikle ihmal edebiliriz.

UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /CONTRAST (F)= special
       (.2 .2 .2 .2 .2
         3  3 -2 -2 -2
         1 -1  0  0  0
         0  0  2 -1 -1
         0  0  0  1 -1)
  /DESIGN=F.

Equivalently, we might also use this syntax (with a more flexible /LMATRIX subcommand)
if we omit the Constant row from the matrix.
UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /LMATRIX= "User contrasts"
       F  3  3 -2 -2 -2;
       F  1 -1  0  0  0;
       F  0  0  2 -1 -1;
       F  0  0  0  1 -1
  /DESIGN=F.

görüntü tanımını buraya girin

Genel kontrast etkisi (resmin altında) beklenen toplam ANOVA etkisiyle aynı değildir:

görüntü tanımını buraya girin

fakat bu sadece Constant terimini L matrisine eklememizin eseridir. Zira SPSS, kullanıcı tanımlı kontrastlar belirlendiğinde zaten Sabit anlamına gelir. Sabit satırı L'den kaldırırsanız, L0 kontrastının gösterilmemesi dışında aynı kontrast sonuçlarını elde ederiz (yukarıdaki resimdeki K matrisi). Genel kontrast etkisi genel ANOVA ile uyuşacak

görüntü tanımını buraya girin

Tamam, şimdi fiziksel olarak kontrast değişkenleri oluşturun ve bunları regresyona gönderin. , . X = D CC=L+X=DC

C
      use_f1   use_f2   use_f3   use_f4
F=1    .1000    .5000    .0000    .0000
F=2    .1000   -.5000    .0000    .0000
F=3   -.0667    .0000    .3333    .0000
F=4   -.0667    .0000   -.1667    .5000
F=5   -.0667    .0000   -.1667   -.5000

görüntü tanımını buraya girin

Sonuçların kimliğini gözlemleyin. Bu örnekte kullanılan veriler:

     Y      F
 .2260      1
 .6836      1
-1.772      1
-.5085      1
1.1836      1
 .5633      1
 .8709      1
 .2858      1
 .4057      1
-1.156      1
1.5199      2
-.1388      2
 .4865      2
-.7653      2
 .3418      2
-1.273      2
1.4042      2
-.1622      3
 .3347      3
-.4576      3
 .7585      3
 .4084      3
1.4165      3
-.5138      3
 .9725      3
 .2373      3
-1.562      3
1.3985      3
 .0397      4
-.4689      4
-1.499      4
-.7654      4
 .1442      4
-1.404      4
-.2201      4
-1.166      4
 .7282      4
 .9524      5
-1.462      5
-.3478      5
 .5679      5
 .5608      5
1.0338      5
-1.161      5
-.1037      5
2.0470      5
2.3613      5
 .1222      5

(M) ANOVA analizleri dışındaki kontrastlar .

Nominal prediktörler göründüğü yerde, kontrast meselesi (hangi prediktör için seçilecek kontrast tipi) ortaya çıkmaktadır. Genel, çok amaçlı adres sonuçları seçilen türe bağlı olmadığında bazı programlar onu sahne arkasından çözer. Daha "temel" sonuçlar görmek için belirli bir tür istiyorsanız, seçmeniz gerekir. Özel bir karşılaştırma hipotezini test ederken de bir kontrast seçersiniz (veya daha doğrusu).

(M) ANOVA ve Loglinear analizi, Karışık ve bazen Genelleştirilmiş doğrusal modelleme, öngörücüleri farklı karşıtlıklar yoluyla tedavi etmek için seçenekler içerir. Ancak göstermeye çalıştığım gibi, kontrast değişkenleri olarak açıkça ve elle kontrast oluşturmak mümkündür. Daha sonra, eğer elinizde ANOVA paketi yoksa, birçok açıdan iyi şanslar ile çoklu regresyonla bunu yapabilirsiniz.


1
Lütfen bu cevabı mümkünse sadece Anova ile sınırlamayın. [Anova] etiketi, sorumu yanıtladığınızda @ amoeba tarafından eklenmiştir, ancak yanıtın yalnızca anova ile sınırlandırılmasını istemiyorum.
Meraklı

Bu cevabı yazdığınız ve güncellediğiniz için teşekkür ederiz! Birkaç sorum var, işte ilki. Cevabınıza "kontrast kodlama matrisi" ( ) ve "kontrast katsayısı matrisi" ( ) 'yi . (Bu arada, bu standart terimler var mı? "Kontrast kodlama matrisini" google'a yazdığımda, ikisi bu sayfaya yönlendiren yalnızca 5 sonuç alıyorum). Bununla birlikte OP, "kontrast matrisi" hakkında soru sorar ve ayrıca R'de kullanılanlara birkaç örnek verir ( ayrıca bu kılavuza bakın ). Bu "kontrast matrisinin" sizin ( değil ) olduğunu anlama konusunda haklı mıyım ? L C LCLCL
amip diyor Reinstate Monica

@amoeba, "kontrast matrisi" ile aşina değilim ve neredeyse (kontrast katsayısı matrisi) veya (M) ANOVA / GLM'de resmi veya en azından geniş yayılma terimi olan L-matrisi anlamına geldiğinden eminim. "Kontrast kodlama matrisi" terimi, X tasarım matrisinin basitleştirilmiş bir görünümü olduğu için çok az belirtilmiştir; Bir SPSS’in kıdemli istatistikçisi Dave Nichols’un makalelerinde kullanılan “matris” kelimesini gördüm. Kesinlikle, L (resmi etiket) ve C (isteğe bağlı etiket?) Matrisleri o kadar yakından ilişkilidir ki biri diğerini zorla tartışabilir. "Kontrast matrisinin" bu çift olarak kabul edilmesi gerektiğini düşünüyorum.
ttnphns,

1
Evet katılıyorum. Şimdiye kadar "kontrast matrisinin" sadece R topluluğunda kullanılan ve kodlama şemasına atıfta bulunan bir terim olduğuna ikna oldum. Gus_est'in ifade ettiği ders kitabını kontrol ettim ve asla “kontrast matrisi” terimini kullanmıyorlar, sadece “kontrastlar” hakkında konuşuyorlar (cevabının altındaki son yorumuma bakın). OP açıkça R anlamındaki "kontrast matrisi" hakkında soruyordu.
amip diyor Reinstate Monica

1
That L will determine what are you going to test, you aren't free anymore to choose what to test: Hayır, buna katılmıyorum. Anladığım kadarıyla kodlama şemasına bağlı olmayan bir test "elle" yapılabilir. Bunun için formüller Gus'ların cevabında verilmiştir. Uygulamada uygun olduğunu söylemiyorum, sadece mümkün olduğunu söylüyorum. Bence söylediğin şey, C-matrisinin her beta katsayısının anlamını belirlediği ve karşılık gelen p değerlerinin için olacağı . Bu temiz. Ancak biri hala "elle" test edebilir, örneğin, eğer . β 1 - β 2 / 2 - β 3 / 2 = 0βi=0β1β2/2β3/2=0
amip diyor Reinstate Monica,

17

Vektörler için küçük harfler ve matrisler için büyük harfler kullanacağım.

Formun doğrusal bir modelinde:

y=Xβ+ε

burada a, seviye matris , ve kabul . n × ( k + 1 ) k + 1 n ε N ( 0 , σ 2 )Xn×(k+1)k+1nεN(0,σ2)

Bu tahmin edebilir ile beri tersi var. (XX)-1xyxXβ^(XX)1XyXX

Şimdi, ANOVA davası için, biz artık tam rütbeli değil. Bunun anlamı bizde yok ve genelleştirilmiş tersine razı olmak zorundayız .X(XX)1(XX)

Bu genelleştirilmiş tersi kullanmanın sorunlarından biri, benzersiz olmamasıdır. Başka bir sorun da için tarafsız bir tahminci bulamıyoruz , çünkü β

β^=(XX)XyE(β^)=(XX)XXβ.

Dolayısıyla, tahmin edemiyoruz . Fakat 'nin doğrusal bir kombinasyonunu tahmin edebilir miyiz ?ββ

Biz bir doğrusal kombinasyonu olduğu sahip s', ki , olduğu tahmin edilebilir bir vektör mevcutsa şekilde .βgβaE(ay)=gβ


Kontrast katsayılarının toplamı olan değerli işlevleri özel bir durumu olan sıfıra eşittir.g

Lineer bir modelde kategorik yordayıcılar bağlamında zıtlıklar ortaya çıkıyor. ( @amoeba tarafından bağlanan kılavuzu kontrol ederseniz, tüm kontrast kodlarının kategorik değişkenlerle ilgili olduğunu görürsünüz). Daha sonra, @Curious ve @amoeba'ya cevap vererek, ANOVA'da ortaya çıktıklarını görüyoruz, ancak sadece sürekli yordayıcılarla "saf" bir regresyon modelinde değil (içinde bazı kategorik değişkenlere sahip olduğumuz için ANCOVA'da zıtlıklar hakkında da konuşabiliriz).


Şimdi, modelde burada tam değildir ve , doğrusal işlev , eğer varsa bir hesap varsa , . Yani, , satırlarının doğrusal bir birleşimidir . Ayrıca, vektör birçok seçenek vardır öyle ki, , aşağıda örnekte görüldüğü gibi.

y=Xβ+ε
XE(y)=XβgβaaX=ggXaaX=g

örnek 1

Tek yönlü modeli göz önünde bulundurun:

yij=μ+αi+εij,i=1,2,j=1,2,3.

X=[110110110101101101],β=[μτ1τ2]

Ve olduğunu varsayalım , bu yüzden değerini tahmin etmek istiyoruz .g=[0,1,1][0,1,1]β=τ1τ2

Bu vektörün farklı seçenekler vardır görebilir akma : çekme ; veya ; veya .aaX=ga=[0,0,1,1,0,0]a=[1,0,0,0,0,1]a=[2,1,0,0,1,2]


Örnek 2

İki yönlü modeli ele alalım: .

yij=μ+αi+βj+εij,i=1,2,j=1,2

X=[11010110011011010101],β=[μα1α2β1β2]

Tahmin edilebilir işlevleri, satırlarının doğrusal kombinasyonlarını alarak tanımlayabiliriz .X

Satır 2, 3 ve 4'ten 1. Satırı çıkarma ( ): X

[11010000110110001111]

Ve 2. ve 3. Satırları dördüncü satırdan alarak:

[11010000110110000000]

Bunun : β

g1β=μ+α1+β1g2β=β2β1g3β=α2α1

Öyleyse, doğrusal olarak bağımsız üç tahmin edilebilir fonksiyonumuz var. Şimdi, yalnızca ve , katsayılarının toplamından (veya satırın toplamından) zıtlıklar olarak kabul edilebilir. İlgili vektörün toplamı ) sıfıra eşittir.g2βg3βg


Tek yönlü dengeli bir modele geri

yij=μ+αi+εij,i=1,2,,k,j=1,2,,n.

Ve hipotezini test etmek istediğimizi varsayalım .H0:α1==αk

Bu ayarda, matris tam sırada değildir, bu yüzden benzersiz değildir ve tahmin edilemez. Tahmin edilebilir kılmak için ile olduğu sürece . Başka bir deyişle, tahmin edilebilir. .Xβ=(μ,α1,,αk)βgigi=0igiαiigi=0

Neden bu doğru?

Bunu biliyoruz isimli değerli IFF bir vektör var öyle ki . ve nin farklı satırlarını sonra: gβ=(0,g1,,gk)β=igiαiag=aXXa=[a1,,ak]

[0,g1,,gk]=g=aX=(iai,a1,,ak)

Ve sonuç izler.


Belirli bir kontrastı test etmek istiyorsak, hipotezimiz . Örneğin: , , bu nedenle ile ve .H0:giαi=0H0:2α1=α2+α3H0:α1=α2+α32α1α2α3

Bu hipotez , burada . Bu durumda, ve bu hipotezi aşağıdaki istatistiklerle test ediyoruz: H0:gβ=0g=(0,g1,g2,,gk)q=1

F=[gβ^][g(XX)g]1gβ^SSE/k(n1).

Eğer olarak ifade , matrisin satırları karşılıklı ortogonal kontrasttır ( ), o zaman istatistiklerini kullanarak , buradaH0:α1=α2==αkGβ=0

G=[g1g2gk]
gigj=0H0:Gβ=0F=SSHrank(G)SSEk(n1)SSH=[Gβ^][G(XX)1G]1Gβ^.

Örnek 3

Bunu daha iyi anlamak için, kullanalım ve test etmek istediğimizi varsayalım bu, olarak ifade edilebilir. k=4H0:α1=α2=α3=α4,

H0:[α1α2α1α3α1α4]=[000]

Veya, : H0:Gβ=0

H0:[011000101001011]G,our contrast matrix[μα1α2α3α4]=[000]

Dolayısıyla, kontrast matrisimizin üç sırasının ilgi kontrastlarının katsayıları tarafından tanımlandığını görüyoruz . Her sütun karşılaştırmamızda kullandığımız faktör seviyesini verir.


Yazdığımların çoğu, Rencher & Schaalje'den, “İstatistikte Doğrusal Modeller”, 8. ve 13. bölümlerden (örnekler, teoremlerin ifadeleri, bazı yorumlar) ve “kontrast matrisi” gibi diğer şeylerden kopyalandı (utanmadan). “(ki bu aslında bu kitapta görünmüyor) ve burada verilen tanımı benimkilerdi.


OP'nin kontrast matrisini benim cevabımla ilişkilendirme

OP'nin matrislerinden biri (bu kılavuzda da bulunabilir ) aşağıdaki gibidir:

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

Bu durumda ve modeli şu şekilde yazabiliriz: Bu matris formunda şu şekilde yazılabilir:

[y11y21y31y41]=[μμμμ]+[a1a2a3a4]+[ε11ε21ε31ε41]

Veya

[y11y21y31y41]=[11000101001001010001]X[μa1a2a3a4]β+[ε11ε21ε31ε41]

Şimdi, aynı kılavuzdaki sahte kodlama örneği için referans grubu olarak kullanıyorlar . Bu nedenle, Satır 1'i , veren matrisindeki diğer tüm satırlardan :a1XX~

[11000011000101001001]

İşleme (4) matrisindeki satır ve sütunların sayısını gözlemlerseniz, tüm satırları ve yalnızca 2, 3 ve 4 faktörleri ile ilgili sütunları dikkate aldıklarını görürsünüz. Yukarıdaki matris verimi:

[000100010001]

Bu şekilde, işlem (4) matrisi bize 2, 3 ve 4 faktörlerini 1 faktörü ile karşılaştırdıklarını ve 1. faktörü sabit ile karşılaştırdıklarını söylüyor (bu benim yukarıdakileri benim anlayışım).

Ve, tanımlanması (yani, yukarıdaki matriste 0 alan toplam satırları alarak): G

[011000101001001]

test edebilir ve zıtlıkların tahminlerini bulabiliriz.H0:Gβ=0

hsb2 = read.table('http://www.ats.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

y<-hsb2$write

dummies <- model.matrix(~factor(hsb2$race)+0)
X<-cbind(1,dummies)

# Defining G, what I call contrast matrix
G<-matrix(0,3,5)
G[1,]<-c(0,-1,1,0,0)
G[2,]<-c(0,-1,0,1,0)
G[3,]<-c(0,-1,0,0,1)
G
     [,1] [,2] [,3] [,4] [,5]
[1,]    0   -1    1    0    0
[2,]    0   -1    0    1    0
[3,]    0   -1    0    0    1

# Estimating Beta

X.X<-t(X)%*%X
X.y<-t(X)%*%y

library(MASS)
Betas<-ginv(X.X)%*%X.y

# Final estimators:
G%*%Betas
          [,1]
[1,] 11.541667
[2,]  1.741667
[3,]  7.596839

Ve tahminler aynı.


@Ttnphns'ın cevabını benimkiyle ilişkilendirmek.

İlk örneklerinde, kurulumun üç seviyeli kategorik bir faktör A var. Bunu model olarak yazabiliriz (basitlik açısından, ): j=1

yij=μ+ai+εij,for i=1,2,3

Ve varsayalım ki veya , referans grubu / faktör olarak ile istiyoruz.H0:a1=a2=a3H0:a1a3=a2a3=0a3

Bu, matris formunda şu şekilde yazılabilir:

[y11y21y31]=[μμμ]+[a1a2a3]+[ε11ε21ε31]

Veya

[y11y21y31]=[110010101001]X[μa1a2a3]β+[ε11ε21ε31]

Şimdi, Satır 3'ü Satır 1 ve Satır 2'den çıkarırsak, olur ( biz buna :XX~

X~=[010100111001]

Yukarıdaki matrisin son 3 sütununu @ttnphns 'matrix . Siparişe rağmen, oldukça benzerler. Gerçekten, eğer çarpın , şunu elde ederiz:LX~β

[010100111001][μa1a2a3]=[a1a3a2a3μ+a3]

Öyleyse, tahmin edilebilir işlevlerimiz var: ; ; .c1β=a1a3c2β=a2a3c3β=μ+a3

Yana , biz referans grubu (a_3) için katsayı için sabit karşılaştırarak yukarıda görüldüğü; grup 1'in katsayısı ile grup3 katsayısı; ve grup2'nin grup3'e katsayısı. Veya, @ ttnphs’in söylediği gibi: “Derhal katsayıları takip ederek, referans grubundaki tahmini Constant değerinin Y ortalamasına eşit olacağını; b1 parametresinin (örn. Kukla değişken A1) farkı: Y ortalamanın grup1 eksi olarak eşit olacağını görüyoruz. Grup3'te Y ortalaması ve b2 parametresi farkıdır: grup2'de ortalama eksi grup3'te ortalama. "H0:ciβ=0

Ayrıca, (kontrast tanımını izleyerek: tahmin edilebilir işlev + satır toplamı = 0), ve vektörlerinin kontrast olduğunu gözlemleyin . Ve eğer bir matrisi yaratırsak, şunları yaparız:c1c2G

G=[01010011]

test etmek için kontrast matrisimizH0:Gβ=0

Örnek

@Ttnphns '"Kullanıcı tanımlı kontrast örneği" ile aynı verileri kullanacağız (Burada yazdığım teorinin etkileşimli modelleri dikkate almak için birkaç değişiklik gerektirdiğini belirtmek isterim, bu yüzden bu örneği seçtim. kontrastların tanımları ve - benim ne dediğim - kontrast matrisi aynı kalır).

Y<-c(0.226,0.6836,-1.772,-0.5085,1.1836,0.5633,0.8709,0.2858,0.4057,-1.156,1.5199,
     -0.1388,0.4865,-0.7653,0.3418,-1.273,1.4042,-0.1622,0.3347,-0.4576,0.7585,0.4084,
     1.4165,-0.5138,0.9725,0.2373,-1.562,1.3985,0.0397,-0.4689,-1.499,-0.7654,0.1442,
     -1.404,-0.2201,-1.166,0.7282,0.9524,-1.462,-0.3478,0.5679,0.5608,1.0338,-1.161,
     -0.1037,2.047,2.3613,0.1222)

F_<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,
    5,5,5,5,5,5,5,5,5,5,5)

dummies.F<-model.matrix(~as.factor(F_)+0)

X_F<-cbind(1,dummies.F)

G_F<-matrix(0,4,6)
G_F[1,]<-c(0,3,3,-2,-2,-2)
G_F[2,]<-c(0,1,-1,0,0,0)
G_F[3,]<-c(0,0,0,2,-1,-1)
G_F[4,]<-c(0,0,0,0,1,-1)

 G 
 [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    3    3   -2   -2   -2
[2,]    0    1   -1    0    0    0
[3,]    0    0    0    2   -1   -1
[4,]    0    0    0    0    1   -1

# Estimating Beta 

X_F.X_F<-t(X_F)%*%X_F
X_F.Y<-t(X_F)%*%Y

Betas_F<-ginv(X_F.X_F)%*%X_F.Y

# Final estimators:
G_F%*%Betas_F
           [,1]
[1,]  0.5888183
[2,] -0.1468029
[3,]  0.6115212
[4,] -0.9279030

Yani aynı sonuçlara sahibiz.


Sonuç

Bana öyle geliyor ki kontrast matrisinin ne olduğu ile ilgili tek bir kavram yok.

Scheffe (“Varyans Analizi”, sayfa 66) tarafından verilen kontrast tanımını alırsanız, katsayıları sıfıra toplanan tahmin edilebilir bir fonksiyon olduğunu göreceksiniz. Dolayısıyla, kategorik değişkenlerimizin katsayılarının farklı lineer kombinasyonlarını test etmek istiyorsak, matris matrisini kullanırız . Bu, satırların sıfıra toplandığı, bu katsayıları tahmin edilebilir kılmak için katsayılar matrisini çarpmak için kullandığımız bir matristir. Satırları, test ettiğimiz zıtlıkların farklı lineer kombinasyonlarını ve kolonları hangi faktörlerin (katsayılar) karşılaştırıldığını gösterir.G

Yukarıdaki matrisi , her bir satırının bir kontrast vektörü (0'a toplanır) içerecek şekilde yapıldığı için benim için "kontrast matrisi" olarak adlandırmak mantıklıdır ( Monahan - "Doğrusal modellerde bir astar" - ayrıca bu terminolojiyi kullanır).GG

Bununla birlikte, @ tnphns tarafından güzel bir şekilde açıklandığı gibi, yazılımlar "kontrast matrisi" olarak başka bir şey çağırıyor ve ben matris ile SPSS'den yerleşik komutlar / matrisler arasında doğrudan bir ilişki bulamadım (@ttnphns) ) veya R (OP'nin sorusu), sadece benzerlikler. Ancak burada sunulan hoş tartışma / işbirliğinin bu kavram ve tanımları netleştirmeye yardımcı olacağına inanıyorum.G


Lütfen bu cevabı mümkünse sadece Anova ile sınırlamayın. [Anova] etiketi, sorumu yanıtladığınızda @ amoeba tarafından eklenmiştir, ancak yanıtın yalnızca anova ile sınırlandırılmasını istemiyorum.
Meraklı

Böyle büyük bir güncelleme için çok teşekkürler. Şimdiye kadar kullanılmayan yorumlarımdan bazılarını kaldırdım (bazılarını, örneğin ilkini kaldırabilirsin). Bununla birlikte, bana göre (ve Monahan) anlamınızdaki "kontrast matrisinin", bu R el kitabında ve ayrıca buradaki orijinal soruda kullanıldığı anlamda "kontrast matrisinden" tamamen farklı bir şey olduğu açıktır. Cı-matris). Bu farkla ilgili cevabınızı bir yere not ederseniz, bunun bir anlamı olur.
amip diyor Reinstate Monica,

Örnek 1'den başlayarak anlamakta zorluk çekiyorum. Ne bir senin notasyonu içinde ? nedir ve od sütunları neyi temsil eder? Bu Sabit terim (bir sütun) ve iki yapay değişken mi? ijyijaiX
ttnphns,

@ ttnphns: indeksleme grubudur (Örnek 1'de iki grup vardır), her grubun içindeki veri noktasını indekslemektedir. bir sabittir ve , her grup için grup ortalamaları olduğu şekilde (yani toplam ortalama olabilir ve , grup ortalamalarının toplam ortalamadan sapması olabilir). sütunları sabit terim ve iki aptaldır, evet. ijμαiμ+αiμαiX
amip diyor Reinstate Monica

Bu cevap için teşekkür ederim, ama muhtemelen asla anlatamayacağım ve asla zamanım olmayacak. Ve matematik okudum :-) Cevap olarak çok basit bir tanım bekledim :-)
Meraklı

7

"Kontrast matrisi", istatistik literatüründe standart bir terim değildir. Farklı anlamlarla ilgili en az iki tane olabilir:

  1. Her satırın bir kontrast olduğu bir ANOVA regresyonunda (kodlama şemasıyla ilgisiz) belirli bir boş hipotezi belirten bir matris . Bu, terimin standart bir kullanımı değildir. Christensen Metinlerinde Karmaşık Sorulara Cevap Verme , Rutherford ANOVA ve ANCOVA Tanıtımı; GLM Yaklaşımı ve İstatistikte Rencher & Schaalje Doğrusal Modeller . Hepsi "zıtlıklar" hakkında çok fazla konuşuyorlar ama asla "zıtlık matrisi" terimlerinden asla bahsetmiyorlar. @Gus_est bulundu Ancak, bu terim olan Monahan'ın kullanılan Lineer Modeller Üzerine Bir Primer .

  2. Bir ANOVA regresyonunda tasarım matrisi için kodlama şemasını belirten bir matris. R topluluğunda "kontrast matrisi" terimi bu şekilde kullanılır (örneğin bu kılavuza veya bu yardım sayfasına bakınız ).

@Gus_est tarafından verilen cevap ilk anlamı araştırıyor. @Ttnphns tarafından verilen cevap ikinci anlamı araştırıyor ("kontrast kodlama matrisi" olarak adlandırıyor ve ayrıca SPSS literatüründe standart bir terim olan "kontrast katsayısı matrisini" tartışıyor).


Anladığım kadarıyla anlam 2 hakkında soru soruyordum, işte tanımı şu:

R anlamında "Kontrast matrisi", matrisi burada , grup üyeliğinin, grup üyeliğinin tasarım matrisi nasıl kodlandığını belirtir . Spesifik olarak, eğer a -inci gözlem grubuna ait sonra .k×kCkXmiXmj=Cij

Not: genellikle ilk sütunu, hepsinin sütunudur (tasarım matrisindeki engelleme sütununa karşılık gelir). Gibi R komutları çağırdığınızda , bu ilk sütun olmadan matris olsun.Ccontr.treatment(4)C


@Ttnphns ve @Gus_est'in cevaplarının nasıl bir araya geldiği hakkında geniş kapsamlı bir yorum yapmak için bu cevabı uzatmayı planlıyorum.


The answer by @Gus_est explores the first meaning. The answer by @ttnphns explores the second meaning.Protesto ediyorum. (Ve duyduğuma şaşırdım - ikimiz de cevapların yorumunda, cevapların yorumunda uzunca bir konuşma yaptıktan sonra.) İki terim davet ettim: kontrast katsayısı matrisi (satırların kontrast olduğu, araçların lineer kombinasyonları) aka L-matris, ve kontrast kodlama şema matrisi, aka C matrisi. Her ikisi de birbiriyle ilgilidir, ikisini de tartışmıştım.
ttnphns,

(devam) Kontrast katsayısı L ​​matrisi, örneğin metinlerde ve SPSS belgelerinde kullanılan ANOVA / Genel doğrusal modelde standart bir terimdir . Kodlama şemaları burada görüyor .
ttnphns

You were asking about meaning #2OP teriminin ne anlama geldiğini aslında tam olarak bilmiyoruz. OP bazı kontrast kodlama şemaları örnekleri sergiledi, - L matrisleriyle ilgilenmediği anlamına gelmez.
ttnphns,

1
Şimdi aynı dili konuştuğumuz için mutluyum. En azından öyle görünüyor. Gus 've ttnphns' raporlarının aynı sonuca nasıl dönüştüğünü gösteren, cevabınızı yerine getirirseniz herkes için, özellikle ziyaretçi okuyucusu için harika olurdu. Eğer başarmak istiyorsan.
ttnphns

1
(devam) Elbette her iki "yaklaşımdaki" L matrisi de aynıdır (ve gizemli G matrisine gerek yoktur). İki eşdeğer yolları (L, X mankenleri isteğe bağlıdır) ABS: L -> XC -> regression -> resultve X -> [regression -> adjusting to test for L] -> resultaynı sonucu bırakın. 2. yol, bir ANOVA programının nasıl yapılacağıdır (köşeli kısım []); 1. yol, kontrastların yalnızca regresyon programı ile nasıl çözülebildiğini gösteren didaktik bir gösteridir.
ttnphns

3

Bir kontrast, iki grubu farklılıkları sıfır ile karşılaştırarak karşılaştırır. Bir kontrast matrisinde satırlar kontrasttır ve sıfıra eklenmesi gereken sütunlar gruptur. Örneğin:

Diyelim ki karşılaştırmak istediğiniz 4, A, B, C, D grubuna sahipseniz, kontrast matrisi şöyle olacaktır:

Grup: ABCD
A vs B: 1 -1 0 0
C vs D: 0 0 -1 1
A, B vs D, C: 1 1 -1 -1

Dan alıntı yapan Anlama Sanayi Deney :

Karşılaştırma yapılacak bir grup k nesnesi varsa, k alt grup ortalamaları ile bu k nesne kümesinde herhangi bir k katsayısı kümesiyle bir kontrast tanımlanır, [c1, c2, c3, ... cj, ..., ck ] Bu sıfıra toplanır.

C bir kontrast olsun o zaman,

C=c1μ1+c2μ2+...cjμj+...ckμk

C=j=1kcjμj

kısıtlı

j=1kcj=0

Sıfır katsayısı atanan bu alt gruplar karşılaştırmanın dışında tutulur. (*)

Seçilen değerleri değil, karşılaştırmayı tanımlayan katsayıların işaretleridir. Katsayıların mutlak değerleri, katsayıların toplamı sıfır olduğu sürece herhangi bir şey olabilir.

(*) Her istatistiksel yazılım, hangi alt grupların dahil edilmeyeceğini / dahil edileceğini göstermenin farklı bir yolunu kullanır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.