R: doğrusal model kalıntılarının test normu - kalan kalıntılar


13

Normalliği kontrol etmek için doğrusal bir modelin kalıntıları üzerinde bir Shapiro Wilk'un W testi ve Kolmogorov-Smirnov testi yapmak istiyorum. Sadece bunun için hangi artıkların kullanılması gerektiğini merak ediyordum - ham artıklar, Pearson kalıntıları, öğrenci kalıntıları veya standart kalıntılar? Shapiro-Wilk'un W testi için, ham & Pearson kalıntıları için sonuçlar aynıdır, ancak diğerleri için değildir.

fit=lm(mpg ~ 1 + hp + wt, data=mtcars)
res1=residuals(fit,type="response")
res2=residuals(fit,type="pearson")
res3=rstudent(fit)
res4=rstandard(fit)
shapiro.test(res1) # W = 0.9279, p-value = 0.03427
shapiro.test(res2) # W = 0.9279, p-value = 0.03427
shapiro.test(res3) # W = 0.9058, p-value = 0.008722
shapiro.test(res4) # W = 0.9205, p-value = 0.02143

KS için aynı soru ve ayrıca kalıntıların normal bir dağılıma (anormal) karşı test edilip edilmeyeceği

ks.test(res1, "pnorm") # D = 0.296, p-value = 0.005563

veya nk-2 serbestlik derecesine sahip bir t-öğrenci dağılımı,

ks.test(res3, "pt",df=nrow(mtcars)-2-2) 

Belki herhangi bir tavsiye? Ayrıca, dağılımın normalliğe yeterince yakın olması ve çıkarımınızı çok fazla etkilememesi için W (> 0.9?) Ve D test istatistikleri için önerilen değerler nelerdir?

Son olarak, bu yaklaşım, takılan lm katsayılarındaki belirsizliği hesaba katıyor mu yoksa cumres()paketteki işlev gof()bu açıdan daha iyi olur mu?

alkış, Tom


9
Böyle bir testin herhangi bir noktaya sahip olması nadirdir. Kalanlar normal olarak "önemli ölçüde" ortaya çıktıysa, kendinize hangi belirli önlemleri alacağınızı sorun. Deneyim size bunun normallikten ne kadar ve ne kadar farklı olduğuna bağlı olduğunu öğretir . Bunların hiçbiri doğrudan (veya yeterince) SW, KS veya başka herhangi bir resmi dağıtım testi ile ölçülmez. Bu çalışma için resmi testler değil , keşif grafikleri kullanmak istiyorsunuz . Hangi kalıntıların çizim için uygun olabileceği sorusu hala devam etmektedir, ancak kalan sorular ilgisiz olarak yol kenarına düşmektedir.
whuber

Evet, birçok istatistikçinin bu pozisyonu savunduğunu fark ettim. Ancak yine de bu testlerin test istatistiklerini kontrol etmek istiyorum (örneğin, Shapiro Wilks W değerinin 0.9'dan büyük olup olmadığını kontrol edin). Ve büyük sapmalar durumunda normallik geliştirmek için her zaman bir Box-Cox dönüşümü ya da bunun gibi bir şey yapabilirdim. Ayrıca sorum da kısmen kavramsaldı - yani normallik pratikte her zaman bu kadar önemli olmasa bile, bunu yapmanın en doğru yolu ne olurdu ...
Tom Wenseleers

Yanıtlar:


9

Yorum yapmak için çok uzun büyüdü.

  1. Sıradan bir regresyon modeli için (takılması gereken gibi lm), düşündüğünüz ilk iki kalıntı tipi arasında bir ayrım yoktur; type="pearson"Gauss olmayan GLM'lerle ilgilidir, ancak responsegaussian modellerle aynıdır .

  2. Testlerinizi uyguladığınız gözlemler (bazı kalıntılar) bağımsız değildir, bu nedenle olağan istatistiklerin doğru dağılımı yoktur. Ayrıca, kesinlikle, düşündüğünüz artıkların hiçbiri tam olarak normal olmayacaktır, çünkü verileriniz asla tam olarak normal olmayacaktır. [Resmi test yanlış soruya cevap verir - daha alakalı bir soru, 'normal olmayan bu benim çıkarımımı ne kadar etkileyecek?', Uygun uyum hipotezi testinin olağan iyiliği tarafından cevaplanmayan bir soru olacaktır.]

  3. Verileriniz tam olarak normal olsa bile, ne üçüncü ne de dördüncü artık tam olarak normal olmaz. Bununla birlikte, insanların (QQ parselleri tarafından) bunları incelemesi, ham artıklardan çok daha yaygındır.

  4. Tasarım matrisinize ( ) bağlı olarak benzetim yaparak 2. ve 3. (sorunlara bağımlılık ve standart artıklarda normallik olmaması) gibi bazı sorunların üstesinden gelebilirsiniz , yani hangi kalıntıları istediğiniz gibi kullanabilirsiniz (ancak "sorunun cevabını zaten bildiğiniz yararsız bir soruyu cevaplamak" sorununla bu şekilde başa çıkamazsınız).X

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.