ANOVA neden doğrusal regresyona kıyasla farklı bir araştırma metodolojisiymiş gibi öğretiliyor / kullanılıyor?


91

ANOVA uygun kukla değişkenlerin kullanımı ile lineer regresyona eşdeğerdir. ANOVA veya lineer regresyon kullanmanıza bakılmaksızın sonuçlar aynı kalır.

Eşdeğerlikleri ışığında, doğrusal regresyon yerine ANOVA'nın kullanılmasının herhangi bir nedeni var mı?

Not: Özellikle doğrusal regresyon yerine ANOVA kullanımının teknik sebeplerini duymakla ilgileniyorum .

Düzenle

İşte tek yönlü ANOVA kullanan bir örnek. Diyelim ki, erkek ve dişilerin ortalama yüksekliğinin aynı olup olmadığını bilmek istiyorsunuz. Hipotezinizi test etmek için, rastgele bir erkek ve dişi örneğinden veri toplarsınız (her birinin 30'unu söylersiniz) ve bir etkinin olup olmadığına karar vermek için ANOVA analizini (yani cinsiyet ve hata karelerinin toplamı) yaparsınız.

Bunun için test etmek için doğrusal regresyon da kullanabilirsiniz:

Tanımla: , cevap veren bir erkek ise . burada:0 Yükseklik = Kesişme + β Cinsiyet + hata hatası N ( 0 , σ 2 )Cinsiyet=10

Yükseklik=Tutmak+β*Cinsiyet+hata
hata~N(0,σ2)

Öyleyse, olup olmadığına dair bir test, hipoteziniz için eşdeğer bir testtir.β=0


2
Yanılmıyorsam, doğrusal regresyon X'ten Y'ye iyi bir doğrusal harita tanımlayan katsayıların tahminidir. Neden aynı olduklarını düşündüğünü açıklar mısın?
robin girard

28
ANOVA, lineer regresyon modellerinin özel bir alt grubu için "sözdizimsel şeker" olarak görülebilir. ANOVA, istatistikçi olmayan araştırmacılar tarafından düzenli olarak kullanılmaktadır. Şimdi "kurumsallaşmışlar" ve onları daha genel temsili kullanmaya geri dönüştürmek zor
;;

3
Yorumunuzu oyladı, ancak deneyciler bile bu sözdizimsel şeker olup olmadığını düşündüğümden daha çılgınca! Hangi versiyon daha sezgiseldir… beta'daki ANOVA hipotez testi : açıklanan varyansın açıklanamayan varyansa oranı yeterince yüksek mü? Bir regresyon modelinin terimi üzerinde T-testi : etkisi sıfırdan yeterince farklı mı? Ve son formülasyonla değişimin yönünü de elde edersiniz. Ve eğer verileri dönüştürmek zorunda kalırsanız, parametre tahminini fiziksel olarak anlamlı bir miktara geri dönüştürebilirsiniz. SS'den farklı olarak. β ββββ
f1r3br4nd

Yanıtlar:


55

Bir iktisatçı olarak, varyans analizi (ANOVA) öğretilir ve genellikle doğrusal regresyon ile ilgili olarak anlaşılır (örn. Arthur Goldberger'in Ekonometri A Kursunda ). Ekonomistler / Ekonomistler, ANOVA'yı genellikle ilgi çekici bulmazlar ve doğrudan regresyon modellerine geçmeyi tercih ederler. Doğrusal (veya hatta genelleştirilmiş doğrusal) modellerin perspektifinden bakıldığında, ANOVA katsayıları partilere atar ve her parti, ANOVA terminolojisindeki bir "varyasyon kaynağına" karşılık gelir.

Genel olarak, ANOVA'dan elde edebileceğiniz çıkarımları regresyon kullanarak çoğaltabilirsiniz, ancak her zaman OLS regresyonunu değil. Gruplar arası etkilerin grup düzeyindeki hatalarla, grup içi etkilerin veri düzeyindeki hatalarla karşılaştırıldığı "bölünmüş arsa tasarımları" gibi hiyerarşik veri yapılarını analiz etmek için çok seviyeli modellere ihtiyaç vardır. Gelman'ın makalesi [1], bu sorunla ilgili ayrıntılı bir ayrıntıya giriyor ve ANOVA'nın hala kendi iyiliği için öğretilmesi gereken önemli bir istatistiksel araç olduğunu savunuyor.

Özellikle Gelman, ANOVA'nın çok seviyeli modelleri anlama ve yapılandırma yöntemi olduğunu savunuyor. Bu nedenle ANOVA, regresyona alternatif değil, karmaşık yüksek boyutlu çıkarımların özetlenmesinde ve keşifsel verilerin analizinde bir araçtır.

Gelman saygın bir istatistikçidir ve görüşüne bir miktar güven verilmelidir. Bununla birlikte, yaptığım tüm ampirik çalışmaların hepsi lineer regresyonla eşit derecede iyi bir şekilde sunulacak ve bu yüzden onu biraz anlamsız olarak görmenin kampına sıkıca düşüyorum. Karmaşık çalışma tasarımlarına sahip bazı disiplinler (örneğin psikoloji) ANOVA'yı faydalı bulabilir.

[1] Gelman, A. (2005). Varyans analizi: neden her zamankinden daha önemli (tartışmalı). İstatistiklerin Yıllıkları 33, 1-53. doi: 10,1214 / 009053604000001048


1
Gelman referansı için teşekkürler. Onun makalesini okuyacağım. Fakat çok seviyeli modelleri klasik maksimum olabilirlik kullanarak analiz edemez miyiz? OLS'nin çok seviyeli modeller için yetersiz / uygun olmadığını kabul ediyorum.

3
@Srikant - çok düzeyli verilerle başa çıkmanın birçok yolu var ve Gelman bu alanın "kralı". Onun amacı ANOVA'nın karmaşık ve hiyerarşik veri yapılarının ya da çalışma tasarımlarının temel özelliklerini yakalamak için basit / açık bir yöntem olduğu ve ANOVA'nın önemli sonuçları sunmanın basit / açık bir yoludur. Bu anlamda rolü tamamlayıcı ya da keşfedicidir.
Graham Cookson

1
Güzel ve net bir cevap için +1. Paragraf 3, temelde, sürekli ve kategorik bağımsız değişkenleri bir ANOVA çerçevesinde birleştirmenin kolaylığına vurgu yaparak biyoloji lisansı olarak öğretildiğim şeydi.
Freya Harrison,

23

Bence Graham'in ikinci paragrafı meselenin özünü alır. Muhtemelen " Araştırmacılar İçin İstatistiksel Yöntemler " in etkisinden ve istatistikçi olmayanlara yönelik bir aracı model oluşturmaya çalışmak yerine, ayrık faktörleri içeren deneysel analizde öğretme / uygulama kolaylığından dolayı, tarihi kadar teknik olmadığını düşünüyorum. ve ilgili araçlar. İstatistiklerde, ANOVA genellikle özel bir regresyon olayı olarak öğretilir. (Biyoistatistiğin neden model oluşturmayı vurgulamak yerine, sayısız "test" ile doldurulduğuna benzer olduğunu düşünüyorum.)


14

Genel doğrusal model kullanmanız gerektiğinde bazılarınızın regresyon terimini kullandığını söyleyebilirim. Regresyonun sürekli değişkenleri içeren bir glm olduğunu düşünüyorum. Sürekli değişkenler kovaryans analizi olarak adlandırılması gereken kukla değişkenlerle birleştirildiğinde. Yalnızca yapay değişkenler kullanılıyorsa, varyans analizi olarak bu özel glm biçimini kastediyoruz. Varyans analizinin, varyansın model terim bileşenlerine ve hata terim bileşenine ayrıştırılmasını kullanarak bir glm'deki önemli katsayıların test edilmesi için prosedür olarak belirgin bir ikinci anlamı olduğunu düşünüyorum.


2
(+1) Ayrıca, tartışma boyunca belirsiz terminolojideki “gerilemeyi” hemen belirttim.
Stéphane Laurent

1
(+1) GLM, farklı anlamları çözmenin en iyi yolu olabilir. Ayrıca, ANOVA tarihinde, OLS ve ANOVA arasındaki ilişkiyi gizleyen hesaplama prosedürlerinin kullanıldığı belirtilmelidir. Bu nedenle isimlendirme tarihi nedenlerle haklı olabilir.
Ekim’de

10

ANOVA, 2'den fazla değer alan (seviye) kategorik açıklayıcı değişkenlerle (faktörler) kullanılabilir ve ortalama cevabın her değer için aynı olduğu temel bir test verir. Bu, bu seviyeler arasında birden fazla çift t-testi gerçekleştirme konusundaki regresyon problemini önler:

  • Sabit bir% 5 anlamlılık seviyesindeki çoklu t testleri, kabaca% 5'inin yanlış sonuçlar vermesini sağlayacaktır.
  • Bu testler birbirinden bağımsız değildir. A'nın seviyelerini B ile karşılaştırmak, A'nın verilerini A ile C'lerin karşılaştırması ile bağlantılıdır, çünkü A'nın verileri her iki testte de kullanılır.

Test etmek istediğiniz faktör seviyelerinde farklı kombinasyonlar için kontrastlar kullanmak daha iyidir .


1
α=.05

7
(3) cevabınız, doğru bir şekilde yapıldığında, OLS regresyonuna uygulanmayan çoklu karşılaştırma problemi anlamına gelir. Bir faktörü regresyon bağlamında test etmenin doğru yolu, yuvalanmış modeli, tüm faktör mankenleri dahil olmak üzere tüm modele karşı düşen tüm faktör mankenleriyle test etmektir. Bu test, bir ANOVA'nın yaptığı ile aynıdır. Tek tek kukla değişkenlerin testlerini kullanmamanız gerektiği doğrudur (şüpheliyim ki burada açıklamaya çalıştığınız şudur).
gung

3

ANOVA, ikiden fazla popülasyonu karşılaştırdığınızı varsayarak popülasyon araçları arasında anlamlı bir fark olup olmadığını test ediyorsanız, o zaman bir F testi kullanacaksınız.

Regresyon analizinde bağımsız değişkenler ile bağımlı değişken arasında bir model oluşturursunuz. Dört seviyeli bir bağımsız değişkeniniz varsa, üç kukla değişken kullanabilir ve bir regresyon modeli çalıştırabilirsiniz. Regresyon modelinin önemini test etmek için kullanılan regresyon modeli için F testi, popülasyon araçları arasındaki farkı test ederken elde ettiğiniz F ile aynıdır. Kademeli bir regresyon yaparsanız, kukla değişkenlerin bazıları modelden düşebilir ve F-değeriniz ANOVA testi yaptığınızdakinden farklı olacaktır.


5
Bu ANOVA'yı bir test prosedürü ve test yapabileceğiniz bir modelleme prosedürü olarak regresyon yapar. Ancak ANOVA, tüm tanıtım tedavilerinde bunun vurgulanıp vurgulanmadığına bakılmaksızın, temel bir modele sahiptir. Yani, bu cevap aralarında herhangi bir fark yakalamaz. Bu soruya da değinilmiyor, bu yüzden güçlü benzerliklere bakılmaksızın farklı olarak öğretiliyorlar.
Nick Cox
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.