Normal olmayan dağıtılmış bir DV için ANOVA sonuçlarına güvenebilir miyim?


22

Bir deneyi tekrarlanan ölçümlerle ANOVA ile analiz ettim. ANOVA, 2 denek-denek faktörü içeren 3'lü (N = 189) 3x2x2x2x3'tür. Hata oranı bağımlı değişkendir. Hata oranlarının dağılımı 3.64 bükülme ve 15.75 kurtosis vardır. Çarpıklık ve kurtosis, hata oranının% 90'ının sonucudur. Normalde dağıtılmayan verileriniz varsa, mümkünse dönüştürmenin sizin yararınıza olduğunu düşündüm, ancak çoğu insan normal olmayan verileri ANOVA veya T testi ile analiz etmenin kabul edilebilir olduğunu düşünüyor. ANOVA sonuçlarına güvenebilir miyim?

(FYI, Gelecekte bu tür verileri R'deki binom dağılımlı karma modellerle analiz etmeyi düşünüyorum)


1
Bu konuların bazılarına link verebilir misiniz? Bağırsak içgüdülerim "NOOO hayır hayır hayır" dır, ancak pek uzman değilim ve bu argümanların bazılarını okumakla ilgileniyorum.
Matt Parker

4
Bu tür verilerle F dağılımlarından elde edilen p değerlerine kesinlikle güvenemezsiniz!
whuber

3
Pek çok kişi ANOVA'nın sağlamlığını, normal olmayan verilerle kullanmanın gerekçesi olarak gösterdi. IMHO, sağlamlık bir testin genel bir niteliği değildir, ancak şunu kesin olarak belirtmelisiniz: a) hangi ihlallerin bir testin hangi ihlallere dayanmadığını (normallik, küresellik, ...) b. etki, c) Testin sağlamlık göstermesi için önkoşulların ne olduğunu (büyük ve eşit hücre boyutu ...). Bölünmüş arsa tasarımınızda, birisinin küreselliği ve kovaryans matrislerinin eşitliği ile ilgili kesin varsayımlarını belirtmesini isterim. 2 faktörlü davada zaten akıllara durgunluk veriyor.
caracal

3
@Matt Artıkların% 90'ı sıfır gibi geliyor. Bu durumda, artıkları uzaktan normale yakın hale getirecek hiçbir dönüşüm olmayacaktır. Simülasyon çalışmaları, F testlerinden elde edilen p değerlerinin normallikten sapmalara karşı oldukça duyarlı olduğunu göstermiştir. (Sizin durumunuzda F testlerindeki bazı paydaların sıfır olması oldukça muhtemeldir: işlerin ne kadar yanlış gidebileceği konusunda keskin bir gösterge.) Farklı bir yaklaşıma ihtiyacınız var. Ne yapmalı, bu kadar fazla kalıntının neden sıfır olduğuna bağlı . Ölçümlerde yeterli hassasiyetin olmaması?
whuber

2
@Matt, verilerinizin sayıldığını varsayarak daha uygun geliyor. Bir başka çekici düşünce, sıfır şişirilmiş bir negatif binom tepkisidir ( ats.ucla.edu/stat/r/dae/zinbreg.htm ).
whuber

Yanıtlar:


20

Diğer parametrik testlerde olduğu gibi, varyans analizi, verilerin normal dağılıma uygun olduğunu varsaymaktadır. Ölçüm değişkeniniz normalde dağılmamışsa, verileri bir anova veya normalliği kabul eden başka bir testle analiz ediyorsanız, yanlış pozitif sonuç alma şansınızı arttırıyor olabilirsiniz. Neyse ki, bir anova normalden ılımlı sapmalara karşı çok hassas değildir; çeşitli normal olmayan dağılımlar kullanan simülasyon çalışmaları, yanlış pozitif oranın varsayımın bu şekilde ihlal edilmesinden çok fazla etkilenmediğini göstermiştir (Glass ve ark. 1972, Harwell ve ark. 1992, Lix ve ark. 1996). Bunun nedeni bir popülasyondan çok sayıda rastgele örnek aldığınızda, bu örneklerin araçlarının popülasyon normal olmasa bile yaklaşık olarak normal şekilde dağılmış olmasıdır.

Normal dağılıma ayarlanmış bir verinin uygunluğunu test etmek mümkündür. Bunu yapmanızı önermiyorum, çünkü normalde önemli olmayan birçok veri seti bir anova için mükemmel bir şekilde uygun olacaktır.

Bunun yerine, yeterince büyük bir veri kümeniz varsa, sadece frekans histogramına bakmanızı öneririm. Eğer normal ya da daha az normal görünüyorsa, devam edin ve bir anova uygulayın. Bir tarafa itilen normal bir dağılıma benziyorsa, yukarıdaki sülfat verileri gibi, farklı veri dönüşümlerini denemelisiniz ve herhangi birinin histogramı daha normal gösterip göstermediğini kontrol etmelisiniz. Bu işe yaramazsa ve veriler hala normal görünmüyorsa, verileri bir anova kullanarak analiz etmek hala sorun değil. Ancak, parametrik olmayan bir test kullanarak analiz etmek isteyebilirsiniz. Hemen hemen her parametrik istatistiksel testte, tek yönlü anova yerine Kruskal-Wallis testi, eşleştirilmiş t testi yerine Wilcoxon işaretli sıra testi ve doğrusal regresyon yerine Spearman sıra korelasyonu gibi parametrik olmayan bir ikame var. Bu parametrik olmayan testler verilerin normal dağılıma uygun olduğunu varsaymamaktadır. Bununla birlikte, farklı gruplardaki verilerin birbirleriyle aynı dağılıma sahip olduğunu varsaymaktadırlar; eğer farklı gruplar farklı biçimli dağılımlara sahipse (örneğin, biri sola doğru, diğeri sağa doğru eğilir), parametrik olmayan bir test parametrik bir testten daha iyi olamaz.

Referanslar

  1. Cam, GV, PD Peckham ve JR Sanders. 1972. Sabit etkilerin varyans ve kovaryans analizlerinin altında yatan varsayımlara uymamasının sonuçları. Rev. Educ. Res. 42: 237-288.
  2. Harwell, MR, EN Rubinstein, WS Hayes ve CC Olds. 1992. Monte Carlo'nın özetlenmesi metodolojik araştırmalarla sonuçlanır: bir ve iki faktörlü sabit etkiler ANOVA vakaları. J. Educ. Stat. 17: 315-339.
  3. Lix, LM, JC Keselman ve HJ Keselman. 1996. Varsayım ihlallerinin sonuçları gözden geçirildi: Tek yönlü varyans analizi F testinin alternatiflerinin nicel bir derlemesi. Rev. Educ. Res. 66: 579-619.

7
Burada cehaletimi gösteriyor olabilirim, fakat ANOVA'nın ardında kalanların normal olduğu varsayımı değil mi? Bu durumda, artıklar kalıba uyduğu sürece, değişkenin kendisinin normal olmaması önemli değildir.
richiemorrisroe

5
Belki de soru düzenlendi, ama bu cevabın neden reddedildiğini ve kabul edildiğini gerçekten anlamıyorum. Bu genel bir tavsiye niteliğindedir, ancak bu özel durum ile hiçbir ilgisi yoktur "Çarpıklık ve kurtosis, hata oranı araçlarının% 90'ının sonucunun 0 olduğu sonucudur". Bu durumda cevap hayır, hayır ve hayır olmalıdır.
Erik,

8

Özellikle bir DV olarak hata oranlarıyla ilgili olarak, Dixon (2008) çok titizlikle ANOVA üzerinden yapılan sıfır hipotez testlerinin hem yanlış alarm oranlarında artış ((değilken "önemli" efektler çağırmak)) hem de artış oranlarında (eksik gerçek efektler) neden olabileceğini göstermektedir . Ayrıca, ikili dağılımlı hatayı belirten karma etki modellemesinin, oran verilerini analiz etmek için daha uygun bir yaklaşım olduğunu göstermektedir.


4

ANOVA'nıza bu kadar çarpık ve çok sayıda 0'la güvenemezsiniz. Daha uygun bir yöntem, DV'iniz gibi hataların sayısını kullanmak (böylece DV'inizi sayı verilerine çevirmek) ve Poisson analizi yapmaktır. Bu yaklaşım karışık bir etki analizi kullanarak ve hata dağıtım ailesini Poisson olarak belirtmeyi gerektirir. Dixon (2008) * Mike Lawrence tarafından bahsedilen makalede R fakat binom sonuçlarla karışık etkiler analiz kullanır. Tekrarlanan ölçümlerimin çoğunda analizler için tamamen R'ye geçtim çünkü sonuç değişkenlerimin çoğu binomdur. Uygun R paketi lme4.

*


2

Juan, çok şey önerdi, ancak ben başkalarını da yankılayacağım ve en iyi doğruluk için değişkenlerin artıkları kalmadıkça normal olmadıklarını tekrarlayacağım. Ayrıca, basitleştirilmiş ve biraz daha yapısal bir cevap (açıklamalı bir akış şemasıyla) yellowbrickstats.com adresinde bulunabilir .


1
Üzgünüm, ama benden -1. Bu genel olarak doğrudur, ancak sıfır enflasyonu varsa artıklar olmayacak. Bence cevaplar sadece genelleri kapsamalı, aynı zamanda özel konuya değinmeli.
Erik,

1

Tavan efektleri burada sorun. Parametrik olmayan bir test, en güvenli bahsinizdir, ancak ANOVA'lar n büyükse bu normallik ihlaline karşı sağlamdır. Tipik olarak insanlar bunu test etmek için sadece bir histogram kullanırlar, ancak eğer sorun artıklarda ise, bundan daha gelişmiş olabilir. Ayrıca bu NASIL sonuçlarınızı etkiler (sadece bunu değil) de aklınızda bulundurun. Pallant (2007) muhtemelen bunun bir hata yapma şansınızı arttırdığını söyler, bu yüzden kritik alfa seviyenizi düşürürseniz bunu hafifletirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.