Regresyon, t testi ve ANOVA genel lineer modelin tüm versiyonları nasıl?


Yanıtlar:


47

Hepsinin bir regresyon denklemi olarak yazılabileceğini düşünün (belki de geleneksel formlarından biraz farklı yorumlarla).

Regresyon:

Y=β0+β1X(continuous)+εwhere εN(0,σ2)

t-testi:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

ANOVA:

Y=β0+β1X(dummy code)+εwhere εN(0,σ2)

Prototipik regresyon, ile sürekli bir değişken olarak kavramsallaştırılmıştır . Bununla birlikte, aslında hakkında yapılan tek varsayım , bilinen sabitlerin bir vektörü olduğudur. Bu sürekli bir değişken olabilir, ama aynı zamanda bir sahte kod olabilir (diğer bir deyişle, bir vektör 's & bir gözlem belirtilen bir grubun bir üyesi olup olmadığını belirtir' s - örneğin bir tedavi grubu). Böylece, ikinci denklemde, böyle bir sahte kod olabilir ve p-değeri, daha geleneksel haliyle bir t-testinden aynı olacaktır. X 0 1 XXX01X

Ancak betaların anlamı burada farklı olabilir. Bu durumda, (kukla değişken girişler yapacak olan kontrol grubunun ortalama olacaktır 'ler) ve tedavi grubunun ortalama ve kontrol ortalamaları arasındaki fark olacaktır grubudur. 0 β 1β00β1

Şimdi, bir ANOVA'nın sadece iki gruba sahip olmasının / çalıştırılmasının (bir t-testi daha yaygın olmasına rağmen) mükemmel olduğunu ve her üçünün de birbirine bağlı olduğunu unutmayın. Eğer 3 gruba sahip bir ANOVA'nız varsa, nasıl olacağını görmek isterseniz; şöyle olacaktır: sahip olduğunda dikkat grupları, sahip onları temsil etmek taklit kodlar. Referans grubu (tipik olarak kontrol grubu) herkes için 'a sahip olarak gösterilir.g g - 1 0 β 0 β 1 β 2

Y=β0+β1X(dummy code 1)+β2X(dummy code 2)+εwhere εN(0,σ2)
gg10yapay kodlar (bu durumda, hem sahte kod 1 hem de sahte kod 2). Bu durumda, standart istatistiksel çıktı ile gelen bu betalar için t-testlerinin p-değerlerini yorumlamak istemezsiniz - yalnızca belirtilen grubun izolasyonda değerlendirildiğinde kontrol grubundan farklı olup olmadığını gösterir . Yani, bu testler bağımsız değil. Bunun yerine, bir ANOVA tablosu oluşturarak ve bir F testi yaparak grubun çeşitliliğinin değişip değişmediğini değerlendirmek istersiniz. ne olursa , betalar tıpkı yukarıda tarif edilen t-test sürümünde olduğu gibi yorumlanır: kontrol / referans grubunun ortalamasıdır, , grup 1 ve referans grubu arasındaki farkı veβ0β1β2grup 2 ile referans grup arasındaki farkı gösterir.

: Bu @ whuber en açıklamalar ışığında, bu da matris denklemleri ile temsil edilebilir , temsil bu şekilde ve uzunluğu vektörlerdir ve , uzunluğunda bir vektördür . şimdi satırlı ve sütunlu bir matristir . Bir prototipik regresyonda sürekli değişkenine ve kesişimine sahipsiniz . Böylece, matrisiniz, her için bir tane olmak üzere, yan yana bir dizi sütun vektöründen oluşur.

Y=Xβ+ε
YεNβp+1XN(p+1)pXXXDeğişken, kesişme için en solda 's sütunu ile . 1

Eğer bir ANOVA temsil ediyorlarsa bu şekilde gruplar, sahip olacaktır unutmayın olan bir gözlem ile gösterilen bir referans grubu ile grupları gösteren kukla değişkenler her yapay değişkendeki 's. Yukarıdaki gibi, yine de bir engeliniz olurdu. Böylece, . gg10p=g1


1
ANOVA denklemi, bir ANOVA (ancak bir t-testi değil) olarak yalnızca bir vektör olarak yorumlanır ve sağda çarpılırsa olur . β1
whuber

Bunlar matris denklemleri değil; Buradakileri nadiren kullanırım, çünkü çoğu insan okumaz. 1. ANOVA, önceki t-testi ile aynı bir durumu temsil eder. Sadece, 2 örneklemeli bağımsız bir t testi çalıştırabilirseniz, ANOVA ile aynı verileri çalıştırabileceğinizi belirtiyorum (birçok insanın 101 sınıfındaki istatistiklerini hatırlaması / hatırlaması gerekir). 2 gruplu bir durumun bir regresyon olarak algılanabilecek tek ANOVA olayı olmadığını açıklığa kavuşturmak için aşağıya doğru bir başka ANOVA versiyonu daha aşağıya ekliyorum; fakat reg denklemi şimdi farklı görünüyor - yukarıda daha açık bir paralel tutmaya çalışıyordum.
gung - Monica’yı eski durumuna getirme

Demek istediğim, eğer siz bir matris denklemi yapmazsanız , ANOVA'nın karakterizasyonunuz kullanışlı olmak için çok sınırlı: t-testinin karakterizasyonunuzla aynıdır ve bu yüzden daha yararlıdır. Daha fazla grup tanıtmaya başladığınızda, birden netleşmeyecek kadar az olan denklemi değiştirirsiniz. Matris gösterimini kullanmak isteyip istemediğiniz elbette size kalmış, ancak iyi iletişim kurmak için tutarlılık için çaba göstermelisiniz.
whuber

Popüler t-test tanımından gösterdiğiniz denkleme nasıl ulaştığınızı biraz daha açıklayabilir misiniz? Temel olarak burada Y'nin ne olduğunu bulamıyorum (istatistikler için azlık veya daha az IQ olabilir). Ancak, t = (yx-u0) / s den bu denkleme nasıl gelinir?
Gaurav Singhal,

Bu, size tanıdık gelmese de değildir. Listelenen tüm durumlarda süreklidir (& şartlı olarak normal kabul edilir). ilgili hiçbir dağıtım varsayımı yoktur , sürekli, iki veya çok seviyeli kategorik bir değişken olabilir. YX
gung - Reinstate Monica

16

Hepsi genel doğrusal modelin özel durumları olarak yazılabilir.

T-testi iki örneklemeli bir ANOVA örneğidir. T-testi istatistiklerini karelerseniz, ANOVA'ya karşılık gelen alırsınız .F

Bir ANOVA modeli temelde faktör seviyelerinin kukla (veya gösterge ) değişkenleri ile temsil edildiği bir regresyon modelidir .

Bu nedenle, bir t testi için model ANOVA modelinin bir alt kümesiyse ve ANOVA çoklu regresyon modelinin bir alt kümesiyse, regresyonun kendisi (ve regresyonun dışındaki diğer şeyler), regresyonun genel bir gerilemeye uzanan genel doğrusal modelinin bir alt kümesidir. Hata teriminin genel regresyon durumundan ('bağımsız' ve 'eşit sapma' olan) ve çok değişkenli daha genel özellikleri .Y


Burada, sıradan (eşit varyans) denkliğini iki sample- gösteren bir örnek R yapılan analizi ve bir regresyon modelinde bir hipotez testi, (gerçek veri eşleştirilmesi için bakır, bu gerçekten uygun bir analiz değildir) :t

> t.test(extra ~ group, var.equal=TRUE, data = sleep) 

    Two Sample t-test

data:  extra by group
t = -1.8608, df = 18, p-value = 0.07919   
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.363874  0.203874
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

Yukarıdaki 0,079 değerine dikkat edin. İşte tek yönlü anova:

> summary(aov(extra~group,sleep))
            Df Sum Sq Mean Sq F value Pr(>F)  
group        1  12.48  12.482   3.463 0.0792 
Residuals   18  64.89   3.605                 

Şimdi regresyon için:

> summary(lm(extra ~ group, data = sleep))

(bazı çıktılar kaldırıldı)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)   0.7500     0.6004   1.249   0.2276  
group2        1.5800     0.8491   1.861   0.0792 .
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.899 on 18 degrees of freedom
Multiple R-squared:  0.1613,    Adjusted R-squared:  0.1147 
F-statistic: 3.463 on 1 and 18 DF,  p-value: 0.07919

'Group2' satırındaki p değerini ve son satırdaki F testi için p değerini karşılaştırın. İki kuyruklu bir test için bunlar aynıdır ve her ikisi de t testi sonucuyla eşleşir.

Ayrıca, 'grup2' katsayısı, iki grup için ortalama farkı temsil eder.


Her 3 senaryoda da aynı p değerlerine sahip olmak büyüleyici ve etkileyicidir, ancak bu p değerlerinin nasıl hesaplandığı hakkında biraz daha fazla açıklama yaparsanız, bu cevabı kesinlikle daha ilginç hale getirir . P-değeri hesaplamaları göstermenin onu daha da faydalı hale getirip getirmediğini bilmiyorum , bu yüzden karar verebileceğiniz bir şey.
Gaurav Singhal,

@Gaurav P değerleri aynıdır, çünkü aynı hipotezi aynı model üzerinde test ediyorsunuz, sadece biraz farklı bir şekilde gösteriliyor. Belirli bir p-değerinin nasıl hesaplandığı ile ilgileniyorsanız, yeni bir soru olacaktır (bu, bu sorunun cevabı olmaz). Böyle bir soruyu sormakta özgürsünüz, ancak daha önce cevaplanmış olabileceğinden, ilk önce bir arama yapmayı deneyin.
Glen_b 2

Teşekkürler @Glen_b, bariz bir soru sorduğum için üzgünüm ve bu da en iyisi değil. Ve hala sorumu cevapladın - "aynı model üzerinde aynı hipotez (ve / veya veri)". Aynı hipotezi nasıl test ettikleri hakkında yeterince fikir vermedim. Thanks
Gaurav Singhal, 19

2

Daha önce gönderdiğim bu cevap biraz alakalı, ancak bu soru biraz farklı.

Aşağıdaki doğrusal modeller arasındaki farkları ve benzerlikleri düşünmek isteyebilirsiniz:

[Y1Yn]=[1x11x21x31xn][α0α1]+[ε1εn]
[Y1Yn]=[10001000010001000010][α0αk]+[ε1εn]

2
Geldikleri kadar nerede sorularına Bazı açıklamalar ve yorum okuyucular için yararlı şimdi beri tahmin etmesi gerekir ve onlar ... soruya nasıl bir ilişkileri
Tim

0

Anova, tedaviler arasında bilinmeyen ancak eşit varyans varsayımı altında araçların eşitliği için bir t testine benzer. Bunun nedeni ANOVA'da MSE'nin t-testinde kullanılan havuzlanmış varyans ile aynı olmasıdır. Eşit olmayan varyanslar için bir tane ve çift yönlü t-testi gibi başka t-test versiyonları da vardır. Bu açıdan, t-testi daha esnek olabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.