Doğrusal regresyonda t-testi ve ANOVA arasındaki fark

Acaba lineer regresyonda t-testi ile ANOVA arasındaki farklar nelerdir?

Eğim ve kesişimden herhangi birinin ortalama sıfır olup olmadığını test etmek için bir t testi, ANOVA ise tüm eğimlerin ortalama sıfır olup olmadığını test etmek için mi? Aralarındaki tek fark bu mu?
Basit doğrusal regresyonda, yani sadece bir tahmin değişkeni olduğunda, tahmin edilmesi gereken sadece bir eğim vardır. Öyleyse, t-testi ve ANOVA eşdeğeri ve evet ise, nasıl, farklı istatistikler kullandıkları göz önüne alındığında (t-testi t-istatistiği ve ANOVA F-istatistiği kullanıyor)?

regression anova t-test

— Tim
kaynak

Ad 1) Doğrusal regresyonda, normalde ANOVA'yı modelin uyum iyiliğinin bir ölçüsü olarak anlıyorum, yani modelin (regresyon çizgisi) toplam değişkenliğin önemli bir bölümünü açıklayıp açıklamayacağına karar vermek. Tüm eğimlerin sıfır olmasına eşdeğer olup olmadığı sorusu gerçekten çok ilginç. Reklam 2) Bu durumda t testi ve regresyon ANOVA için neredeyse aynı p değerlerini alıyorum. Gerçekten ilginç bir teorem!

— Meraklı

Yanıtlar:

Genel doğrusal model, bir ANOVA modelini regresyon modeli olarak yazmamızı sağlar. Diyelim ki her biri iki gözlemli iki grubumuz var, yani vektöründe dört gözlem . Daha sonra orijinal, aşırı ölçülen model dır; burada tahmincilerin matrisidir, yani kukla kodlanmış gösterge değişkenleri: $y$ $E(y) = X^{\star} \beta^{\star}$ $X^{\star}$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{ccc} 1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1 \end{array}) (\begin{matrix} β_{0}^{⋆} \\ β_{1}^{⋆} \\ β_{2}^{⋆} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{ccc}1 & 1 & 0 \\ 1 & 1 & 0 \\ 1 & 0 & 1 \\ 1 & 0 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0}^{\star} \\ \beta_{1}^{\star} \\ \beta_{2}^{\star}\end{array}\right)$

Parametreler çünkü sıralaması var 2 ( ters çevrilemez). Bunu değiştirmek için, bize yeni : modelini veren (tedavi zıtlıkları) kısıtlamasını $((X^{\star})' X^{\star})^{-1} (X^{\star})' E(y)$ $X^{\star}$ $(X^{\star})'X^{\star}$ $\beta_{1}^{\star} = 0$ $E(y) = X \beta$

(\begin{matrix} μ_{1} \\ μ_{1} \\ μ_{2} \\ μ_{2} \end{matrix}) = (\begin{array}{cc} 1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1 \end{array}) (\begin{matrix} β_{0} \\ β_{2} \end{matrix})

$\left(\begin{array}{c}\mu_{1} \\ \mu_{1} \\ \mu_{2} \\ \mu_{2}\end{array}\right) = \left(\begin{array}{cc}1 & 0 \\ 1 & 0 \\ 1 & 1 \\ 1 & 1\end{array}\right) \left(\begin{array}{c}\beta_{0} \\ \beta_{2}\end{array}\right)$

Yani , yani referans kategorimizden (grup 1) beklenen değerin anlamını üstlenir. , yani , kategorisini referans kategorisine . İki grupta, grup etkisi ile ilişkili sadece bir parametre olduğundan ANOVA sıfır hipotezi (tüm grup etkisi parametreleri 0'dır) regresyon ağırlığı sıfır hipotezi ile aynıdır (eğim parametresi 0'dır). $\mu_{1} = \beta_{0}$ $\beta_{0}$ $\mu_{2} = \beta_{0} + \beta_{2}$ $\beta_{2}$ $\mu_{2} - \mu_{1}$

Genel doğrusal modeldeki bir testi , sıfır hipotezi altında varsayılan bir değere karşı parametrelerin doğrusal kombinasyonunu test eder . Seçimi , biz, böylece hipotezi test olabilir (eğim parametresi için olağan deney), yani burada, . Tahmincisi olup , olarak Parametreler için OLS tahminleri. Böyle bir için genel test istatistiği şöyledir: $t$ $\psi = \sum c_{j} \beta_{j}$ $\psi_{0}$ $c = (0, 1)'$ $\beta_{2} = 0$ $\mu_{2} - \mu_{1} = 0$ $\hat{\psi} = \sum c_{j} \hat{\beta}_{j}$ $\hat{\beta} = (X'X)^{-1} X' y$ $\psi$

t = \frac{\hat{ψ} - ψ_{0}}{\hat{σ} \sqrt{c^{'} (X^{'} X)^{- 1} c}}

$t = \frac{\hat{\psi} - \psi_{0}}{\hat{\sigma} \sqrt{c' (X'X)^{-1} c}}$

$\hat{\sigma}^{2} = \|e\|^{2} / (n-\mathrm{Rank}(X))$ , hata sapması için tarafsız bir tahmin edicidir, burada , kare artıkların toplamıdır. İki grup olması durumunda , ve bu nedenle tahminciler ve . İle bizim durumumuzda 1 olmak test istatistik olur: $\|e\|^{2}$ $\mathrm{Rank}(X) = 2$ $(X'X)^{-1} X' = \left(\begin{smallmatrix}.5 & .5 & 0 & 0 \\-.5 & -.5 & .5 & .5\end{smallmatrix}\right)$ $\hat{\beta}_{0} = 0.5 y_{1} + 0.5 y_{2} = M_{1}$ $\hat{\beta}_{2} = -0.5 y_{1} - 0.5 y_{2} + 0.5 y_{3} + 0.5 y_{4} = M_{2} - M_{1}$ $c' (X'X)^{-1} c$

t = \frac{M_{2} - M_{1} - 0}{\hat{σ}} = \frac{M_{2} - M_{1}}{\sqrt{‖ e ‖^{2} / (n - 2)}}

$t = \frac{M_{2} - M_{1} - 0}{\hat{\sigma}} = \frac{M_{2} - M_{1}}{\sqrt{\|e\|^{2} / (n-2)}}$

$t$ , df (burada ) ile dağıtılır . karesini aldığınızda, , ANOVA test istatistik iki grup için -test ( arasındaki için, bir şu gruplar içinde için) - 1 ve ile dağılım df. $t$ $n - \mathrm{Rank}(X)$ $n-2$ $t$ $\frac{(M_{2} - M_{1})^{2} / 1}{\|e\|^{2} / (n-2)} = \frac{SS_{b} / df_{b}}{SS_{w} / df_{w}} = F$ $F$ $b$ $w$ $F$ $n - \mathrm{Rank}(X)$

fazla grupla, ANOVA hipotezi (tümü aynı anda 0, ) birden fazla parametreye işaret eder ve doğrusal bir kombinasyon olarak ifade edilemez , bu nedenle testler eşdeğer değildir . $\beta_{j}$ $1 \leq j$ $\psi$

— karakulak
kaynak

1'de, ANOVA genellikle faktör değişkenlerini ve grup varyansı arasında anlamlı olup olmadığını test edecektir. Yazılımınız bir regresyonda gösterge değişkenlerine izin veriyorsa farkı açıkça göreceksiniz: her manken için bu grubun 0'dan önemli ölçüde farklı olup olmadığını ve sonuç olarak geçerli referans grubundan veya referans değerinden önemli ölçüde farklı olduğunu belirten bir p değeri alırsınız. . Genellikle, bir ANOVA testi yapana kadar göstergenin kendisinin ne derece önemli olduğunu görmezsiniz.

F-testi, kare t-testidir. Bu nedenle, 2'de aynı.

— Emek
kaynak

Teşekkürler! (1) Gösterge değişkenleri burada ne anlama geliyor? (2) Genel olarak, bir t-testi ANOVA'ya sadece iki grup olduğunda eşdeğerdir. Ancak basit doğrusal regresyonda, ikiden fazla grup olabilir; burada grup sayısı, veri kümesinde öngörücü değişkenin aldığı değer sayısıdır.

— Tim

(1) Gösterge veya kategorik veya faktör değişkeni ... hepsi aynı. (2) Gerçekten, ama bir dizi manken / kategorinin ANOVA'dan ne kadar iyi olduğunu bilmek isteyebilirsiniz.

— İşçi

Teşekkürler! (2) Öyleyse basit doğrusal regresyonda, ikiden fazla grup olduğu düşünüldüğünde, t-testi ANOVA ile nasıl eşdeğerdir? "Bir dizi manken / kategori ANOVA'dan ne kadar iyi puan alıyor" ne anlama geliyor ve neden bilmek istiyorum?

— Tim

OLS regresyonunda, kaç grup tanımlasanız da, R² (açıklanan varyans) ANOVA'dan eta² veya MSS / TSS'ye eşit olacaktır. Daha sonra, bir dizi aptalın (yani bir gösterge değişkeni), setin kendisinin alakalı olup olmadığını ve referans kategorisi ile tek bir kategori arasındaki farkın öneminden farklı olduğunu söylemek için katkısını bilmek isteyebilirsiniz. .

— İşçi Partisi