Neden bazı insanlar ham verileri üzerinde regresyon benzeri model varsayımlarını test ederken, diğer insanlar bunları artık üzerinde test ediyor?


12

Deneysel psikoloji doktora öğrencisiyim ve verilerimi nasıl analiz edeceğime ilişkin bilgi ve becerilerimi geliştirmek için çok uğraşıyorum.

Psikoloji'deki 5. yılıma kadar, regresyon benzeri modellerin (örneğin, ANOVA) aşağıdakileri varsaydığını düşündüm:

  • verilerin normalliği
  • veriler için varyans homojenliği vb.

Lisans derslerim, varsayımların verilerle ilgili olduğuna inanmamı sağlıyor. Ancak 5. sınıfımda bazı eğitmenlerim varsayımların ham verilerle değil, hatalarla (kalıntılar tarafından tahmin edilen) ilgili olduğu gerçeğinin altını çizdi.

Son zamanlarda, kalanlar hakkındaki varsayımları sadece üniversitenin son yıllarında kontrol etmenin önemini keşfettiklerini de itiraf eden bazı meslektaşlarımla varsayım sorusundan bahsediyordum.

İyi anlarsam, regresyon benzeri modeller hata hakkında varsayımlar yapar. Bu nedenle artıklar üzerindeki varsayımları kontrol etmek mantıklıdır. Öyleyse, neden bazı insanlar ham veriler üzerindeki varsayımları kontrol ediyor? Bu tür bir kontrol prosedürü, kalıntıyı kontrol ederek ne elde edeceğimize yaklaştığı için mi?

Meslektaşlarım ve ben'den daha doğru bilgiye sahip olan bazı insanlarla bu konuyla ilgili bir tartışmaya çok karışıyorum. Cevaplarınız için şimdiden teşekkür ederim.

Yanıtlar:


13

Temel olarak, doğru yoldasınız. Bağımlı değişkenin normalliği = artıkların normallerinde normallik yönü hakkında bir tartışma bulacaksınız ?

Klasik lineer modelin bazı varsayımları gerçekten hatalarla ilgilidir (kalıntıları bunların gerçekleştirilmesi olarak kullanmak):

  • İlişkisiz mi? (OLS tahmincilerinin çıkarımı ve optimumluğu ile ilgilidir)
  • Eşit varyansları var mı? (OLS tahmincilerinin çıkarımı ve optimumluğu ile ilgilidir)
  • Merkezler 0 civarında mı? (Tarafsız tahmin ediciler ve tahminler almak için temel varsayım)
  • Örnek çok küçükse: normal mi yoksa en azından simetrik olarak mı dağıtılıyor? (Çıkarım için uygun)

Diğer koşullar "ham veriler" ile ilgilidir:

  • Regresörlerde brüt aykırı değerler yok mu? (Yüksek kaldıraç gözlemleri tüm modeli yok edebilir)
  • Mükemmel çoklu doğrusallık yok mu? (En azından bazı yazılım paketlerinde hesaplama sorunlarına neden olur)

Şimdi, lisans öğretmeniniz de doğru olabilir:

  • Belki de tek örnekli t testi gibi tek değişkenli testlere odaklanıyordunuz. Burada varsayımlar ham verilerle ilgilidir.
  • R,2
  • Ham verilere dayanarak eşcinsellik konusunu nasıl kontrol edersiniz? Belki de onu yanlış anlarsın.

Tamam, cevabınız ve çok faydalı olan bağlantı için çok teşekkür ederim. Bazı meslektaşlarım ve ben yakın zamana kadar ham verilerin eşit varyanslara sahip olması gerektiğine inanıyorduk. Söylediğiniz gibi kurslarımızda bir şeyleri kaçırmış olabiliriz. Bazı kitaplarda aşağıdakileri okuyabiliriz:
Psychokwak

"En yaygın istatistiksel prosedürler, bu konuyla ilgili iki varsayım yapar: (a) değişkenlerin (veya hata terimlerinin daha teknik olarak) normal olarak dağıtıldığı varsayımı ve (b) varyans eşitliği (homossedastisite veya homojenlik) varsayımı yani değişkenin varyansı, başka bir değişkenin gözlemlenen aralığı üzerinde sabit kalır. " "Değişken" hakkında konuşulduğunda sistematik olarak "hata terimleri" hakkında konuştuğu anlamına mı geliyor? Eğer öyleyse bununla iyiyim ama açık bir söz olmadan çok açık olmaktan uzaktır (en azından benim için).
Psychokwak

Son olarak, cevaplarınız hakkında son bir sorum var. Eğer t-testi ve ANOVA regresyonun belirli vakalarıysa, neden tek örnekli bir t-testindeki verilerle ilgili varsayımlar söz konusudur? Yararlı cevabınız için tekrar teşekkürler.
Psychokwak

1
Son yorumunuzu cevaplamak için: Tek örnekli t-testi aynı zamanda özel bir gerileme vakası olarak da görülebilir. Model basitçe kesişme noktasından (= ortalama) ve hata teriminden oluşur, yani yanıt kaydırılmış bir hatadır. Vardiyalar herhangi bir varsayım için önemsiz olduğundan, veriler veya artıklar hakkında konuşmak eşdeğerdir.
Michael M

4

Her ikisi de temel popülasyon dağılımını değil, gerçek örneğinize daha fazla atıfta bulunduğundan, artıklar ve ham veriler arasındaki ayrımı yardımcı bulmuyorum. Bazı gereksinimlerin "grup içi gereksinimler" ve diğerleri "grup varsayımları arasında" olduğunu düşünmek daha iyidir.

Örneğin, varyans homonenitesi bir "gruplar arası varsayımdır" çünkü grup içi varyansın tüm gruplar için aynı olduğunu söyler.

Normallik, her bir grup içinde y'nin normal olarak dağıtılmasını gerektiren bir "grup içi" varsayımıdır.

Tüm ham yeriniz üzerinde normalliğe sahip olmanın genellikle hiçbir etkinizin olmadığı anlamına geldiğini unutmayın - kadınlar ve erkekler arasında ayrım yapmadan cinsiyet dağılımına bakın. Güçlü cinsiyet etkisi nedeniyle normal olarak dağıtılmayacaktır. Ancak her cinsiyette oldukça iyi durumda.


1
Cevabınız için de teşekkürler. Soruyu görmek ilginç bir yol. Normalliği hiç böyle bir şekilde düşünmemiştim (yani, “tüm ham y üzerinde normallik sahibi olmak, genellikle hiçbir etkimiz olmadığı anlamına gelir”).
Psychokwak
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.