ANOVA vs çoklu doğrusal regresyon? ANOVA neden deneysel çalışmalarda bu kadar yaygın olarak kullanılıyor?


24

ANOVA vs çoklu doğrusal regresyon?

Her iki yöntemin de aynı istatistiksel modeli kullandığını biliyorum. Ancak hangi koşullar altında hangi yöntemi kullanmalıyım?

Bu yöntemlerin kıyaslandığında avantaj ve dezavantajları nelerdir?

ANOVA neden deneysel çalışmalarda bu kadar yaygın olarak kullanılıyor ve hiçbir zaman bir regresyon çalışması bulamıyorum?


5
Her ikisi de aynı modeli kullandığından, hangisini kullandığınız önemli değildir.
Peter Flom - Eski Monica

3
Eğimleri, yani sürekli yordayıcı değişkenleri ve ortalamaları karşılaştırdığımda ANOVA'yı, yani kategorik yordayıcı değişkenleri karşılaştırırken buna regresyon derim. ANOVA'yı deneysel çalışmalarda daha fazla bulmanızın nedeni, çoğunlukla bitkileri karşılaştırmak için farklı gübreleri karşılaştırmak için ortalama yöntemleri veya tedavi seviyelerini karşılaştırmalarıdır. Fakat @PeterFlom'un dediği gibi, her ikisi de aynı modeli kullanıyor ve hangisini kullandığınız önemli değil - farklı görünen tek şey size verdikleri çıktı - ve sorunuza bağlı olarak "regresyon" çıktısını veya "ANOVA" çıkışı.
Stefan

2
Hmm ama aynı zamanda kukla kodlama yoluyla bir regresyonda kategorik öngörücüleri de dahil edebilirsiniz.
florian

Evet tabi ki!
Stefan

4
Sorunuz çok geçerli ve CV ile ilgili farklı açılardan birkaç kez ele alındı. Bu testlerin yinelenen doğası şaşırtıcı. ANOVA = doğrusal regresyon olduğunu söylemek kolaydır ve şu ana kadar yapılan tüm yorumların faydalı ve tam anlamıyla olduğunu düşünüyorum, ancak gerçeğin biraz daha nüanslı ve zor olduğunu düşünüyorum, özellikle de ANCOVA'yı analiz şemsiyesine dahil ediyorsanız varyans. Gibi diğer girdileri, kontrol bu bir . Sorunuzu + 1'ledim, her ne kadar kesin olarak konuşulsa da yineleniyor. Eski bir verir misin?
Antoni Parellada

Yanıtlar:


22

Farklılığın değişken türünde ve daha da açıklayıcı değişken türlerinde olduğunu anlamak ilginç olurdu . Tipik ANOVA'da farklı gruplara sahip kategorik bir değişkenimiz var ve sürekli bir değişkenin ölçümünün gruplar arasında farklılık gösterip göstermediğini belirlemeye çalışıyoruz. Öte yandan, OLS, sürekli bir gerileme veya tepki değişkeni ile bir veya daha fazla gerileme veya açıklayıcı değişken arasındaki ilişkiyi değerlendirme girişimi olarak algılanma eğilimindedir . Bu anlamda, regresyon kendini bir regresyon çizgisine dayanan değerleri tahmin etmeye borç vererek farklı bir teknik olarak görülebilir.

Ancak , bu fark ANOVA'nın varyans alfabe çorbasının (ANCOVA, MANOVA, MANCOVA) analizinin geri kalanına yayılmasına dayanmamaktadır; veya kukla kodlu değişkenlerin OLS regresyonuna dahil edilmesi. Belirli tarihi yerler hakkında net değilim ama sanırım her iki teknik de giderek daha karmaşık modellerle başa çıkmak için paralel uyarlamalar geliştirdi.

Örneğin, ANCOVA ile OLS ve OLS arasındaki farkların kukla (veya kategorik) değişkenlerle (etkileşimli her iki durumda) en fazla kozmetik olduğunu görebiliriz. Lütfen ayrılmamı, çoklu lineer regresyonla ilgili olarak, sorunuzun başlığındaki sınırlardan alayım.

Her iki durumda da, model R içinde bu noktaya kadar esasen özdeş olan fonksiyon ANCOVA gerçekleştirmek için kullanılırlm . Ancak, regresyon modelinde faktör (veya kategorik) değişkenin birinci seviyesine (veya grubuna) karşılık gelen bir kesişimin dahil edilmesi bakımından farklı olarak sunulabilir.

Dengeli bir modelde (eşit büyüklükte grupları, n 1 , 2 , i ) ve sadece bir ortak değişken (matris sunumunu basitleştirmek için), ANCOVA'daki model matrisine bazı varyasyonlar olarak rastlanabilir:n1,2,i

X=[1n100xn10001n200xn20001n300xn3]

blok faktörü olarak ifade edilen faktör değişkeninin 3 grubu için .3

Bu doğrusal modele karşılık gelir:

ile α i ANOVA modelinde farklı grup vasıtasıyla eşdeğer farklı ise β 'in elde edilmiş her grup için ortak değişken eğimleri vardır.

y=αi+β1xn1+β2xn2+β3xn3+ϵi
αiβ

Aynı modelin regresyon alanında ve özellikle R'de sunulması, gruplardan birine karşılık gelen genel bir engelleme olduğunu düşünür ve model matrisi şu şekilde sunulabilir:

X=[00000J3n,11n20x0xn2001n300xn3]

OLS denkleminin

.

y=β0+μi+β1xn1+β2xn2+β3xn3+ϵi

Bu modelde, genel kesimi her grup seviyesinde μ i tarafından değiştirilir ve gruplar aynı zamanda farklı eğimlere sahiptir.β0μi

Model matrislerinden görebileceğiniz gibi, sunum regresyon ve varyans analizi arasındaki gerçek kimliğe inanmaktadır.

Bunu bazı kod satırları ve R'deki en sevdiğim verilerlemtcars doğrulamayı seviyorum . Buradalm bulunan Ben Bolker gazetesine göre ANCOVA kullanıyorum .

mtcars$cyl <- as.factor(mtcars$cyl)         # Cylinders variable into factor w 3 levels
D <- mtcars  # The data set will be called D.
D <- D[order(D$cyl, decreasing = FALSE),]   # Ordering obs. for block matrices.

model.matrix(lm(mpg ~ wt * cyl, D))         # This is the model matrix for ANCOVA

Hangi yöntemin kullanılacağı (R ile regresyon!) Hakkındaki soruya gelince, bu yazıyı yazarken karşılaştığım bu çevrimiçi yorumu eğlenceli bulabilirsiniz .


1
Bu son derece yararlı yorum için teşekkür ederim ... Bağladığınız yorumdan alıntı yapmak: "Bağımsız kategorik değişkenlerin herhangi bir etkisinin olup olmadığından emin değilseniz, regresyon kullanın. Belirli kategorilerin farklı etkilerinin olup olmadığını görmek için ANOVA kullanın. ." Peki neden birçok deneysel çalışma ANOVA kullanıyor? Anladığım kadarıyla regresyon doğru seçim olacaktır. Araştırmacılar, etkilerin var olduğuna ve yalnızca bunları istatistiksel olarak "ispatlamak" için yollar aradığına ikna olmuş mu?
florian

Kişinin regresyon yerine aov kullanması ve nedenini açıklaması için pratik bir örnek verebilir misiniz? Zaman ayırdığınız için teşekkürler. Aynı zamanda eğitim alan bir psikoloğum ve Anova'nın avantajlarını görmemek dışında, muhtemelen daha kolay yayınlanıyor.
florian

Şansın var mı? Her iki prosedürü de desteklemek için daha somut bir sezgisel buluşma ilgimi çeker, bu nedenle lütfen bir cevap bulursanız paylaşın.
Antoni Parellada

Ne yazık ki, şu ana kadar İstatistik’e olan yolculuğumda yeni keşifler ... sizi haberdar etmeyecek, daha fazla girdi takdir edilecek.
florian

Burada OLS model matrisini ve karşılık gelen denklemi anlamakta zorluk çekiyorum. Sıfır sütununun nereden geldiğini anlamıyorum (matrisin 5. sütunu). Ayrıca, denklemin sütunlara karşılık gelmesi gerektiğini düşünüyorum (yani mu_i sadece iki grup için olmalı ve x değişkeni bir grup kukla ile etkileşimi olmadan dahil edilmelidir). Ek açıklama çok takdir edilmektedir!
Nick,

4

ANOVA ve OLS regresyonu, öngörücülerinizin kategorik olduğu durumlarda (test istatistiğinden çıkardığınız sonuçlar bakımından) matematiksel olarak aynıdır. Başka bir deyişle, ANOVA özel bir regresyon örneğidir. Bir ANOVA'nın size, regresyonun kendisini elde edemediğini söyleyebileceği hiçbir şey yoktur. Ancak bunun tersi doğru değildir. ANOVA sürekli değişkenli analizlerde kullanılamaz. Bu haliyle, ANOVA daha sınırlı teknik olarak sınıflandırılabilir. Bununla birlikte, regresyon, daha az karmaşık analist için her zaman bu kadar kullanışlı değildir. Örneğin, çoğu ANOVA betiği otomatik olarak etkileşim terimleri oluşturur; regresyonda olduğu gibi, sık sık bu terimleri kendiniz yazılımı kullanarak kendiniz hesaplamanız gerekir. ANOVA'nın yaygın kullanımı, kısmen daha güçlü istatistiksel yazılımların kullanılmasından önce istatistiksel analizin bir kalıntısıdır. ve bence, amacı, verileri temel bir istatistiksel paketle analiz etmelerini sağlayacak, nispeten yüzeysel bir anlayış olan deneyimsiz öğrencilere öğretmek için daha kolay bir teknik. Bir ara deneyin ... Temel bir regresyonun yayıldığı istatistiklerini inceleyin, kare haline getirin ve sonra aynı verilerdeki ANOVA'dan F oranıyla karşılaştırın. Özdeş!


Bu doğru değil.
Michael R. Chernick

4
@MichaelChernick Bu cevapta yapılan birçok iddiadan hangisinin doğru olmadığını düşünüyorsunuz? Bazı aşırı pozisyonlara rağmen, yanlış olanı bulmak zor.
whuber

ANOVA ve OLS regresyonunun matematiksel olarak aynı olduğu ifadesine itiraz ettim. ANOVA'nın regresyon olarak, regresyon gibi formüle edilebilecek bir genel lineer model biçiminde bakılabileceğini kabul ediyorum.
Michael R. Chernick

OLS durumunda, çıktı dışında özdeş değiller? Temel model aynı, artıklar aynı, ürettikleri p değerleri aynı. Farklı olan çıktı.
dbwilson

2

ANOVA'nın gerilemesinin ana yararı, bence, çıktıda. Kategorik değişkenin (faktör) bir blok olarak istatistiksel önemi ile ilgileniyorsanız, ANOVA bu testi size sunar. Regresyonda, kategorik değişken, kategori sayısına bağlı olarak 2 veya daha fazla kukla değişkenle temsil edilir ve bu nedenle, her biri null kategorinin (veya kukla kodlama yöntemine bağlı olarak genel ortalama). Bunların hiçbiri ilgi çekici olmayabilir. Bu nedenle, ilgilendiğiniz faktörün genel testini almak için tahmin sonrası analiz (özellikle ANOVA) yapmalısınız.


Aslında, bu doğru değil. Bir olasılık oranı testi yaparsanız, tüm kategorik faktörü bir regresyon modelinde bir blok olarak test ediyorsunuz.
Dan Chaltiel

Yorumunuz söylediklerimle çelişmiyor. Bahsettiğiniz olasılık oranı testi, faktör ile modeli model olmadan karşılaştırarak faktör üzerinde bir tahmin sonrası analiz olacaktır.
dbwilson

Bir ANOVA yaparsanız, "blok olarak kategorik değişken (faktör)" için bir değer alırsınız, LRT ile regresyon olur. Regresyon size birkaç beta sağlayabilir ancak ANOVA'dan daha fazla test yapmaz, bu nedenle "2 veya daha fazla istatistiksel testiniz var" ifadesi bana yanlış geliyor. LRT neden ANOVA'dan daha "tahmin sonrası" olsun?
Dan Chaltiel

1

Doğrusal regresyonun en büyük avantajı, gruplar arasında örneklem büyüklüklerinin eşit olmadığı durumlarda değişkenliğin homojenliğini ihlal etmesine karşı dayanıklı olmasıdır. Bir diğeri, birkaç eş değişkenin dahil edilmesini kolaylaştırmasıdır (bununla birlikte, tek bir eş değişken dahil etmekle ilgilendiğinizde ANCOVA aracılığıyla da kolayca gerçekleştirilebilir). Yetmişli yıllarda bilgisayar gücündeki gelişmelerin ortaya çıkmasıyla birlikte gerileme yaygınlaştı. İkiden fazla seviye varken, bir kategorik değişkenin belirli seviyeleri arasındaki farkları incelemekle özellikle ilgileniyorsanız, bu regresyonda yapay değişkeni kurduğunuz sürece, bu iki seviyeden birini ayarlayarak referans grubunu temsil eder).


1
Diğer yanıtında belirttiği gibi, bir ANOVA olan bir çoklu regresyon.
gung - Reinstate Monica

Teşekkürler, Anova'nın avantajları nelerdir? Regresyon modeli üzerinde neden bir Anova / Ancova kullanıyorsunuz?
florian

Burada bir sorum var. ANCOVA’nın yararını açıklarken neden “tek değişkenli” ifadesini kullandınız? ANCOVA'ya sadece bir ortak değişken ekleyebildiğiniz için mi?
Kevin Kang
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.