Veri analizi alıştırmaları ile istatistiksel kavramların öğrenilmesi


18

Basit veri analizi uygulamalarının genellikle istatistiksel kavramları açıklamaya ve açıklığa kavuşturmaya yardımcı olabileceğini düşünüyorum. İstatistiksel kavramları öğretmek için hangi veri analizi alıştırmalarını kullanıyorsunuz?

Yanıtlar:


9

Değişken seçim yöntemlerini bir öğretme bağlamında değil, araştırmalarında yardım isteyen istatistikçi olmayanlar için sık sık açıklamak zorunda olduğum için, tek değişkenli seçimin neden iyi bir fikir olmadığını gösteren bu son derece basit örneği seviyorum.

Bu veri kümeniz varsa:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Hem X1 hem de X2'nin ayrı ayrı y için tamamen bilgi sahibi olmadığını fark etmek uzun sürmüyor (aynı olduklarında, y '1' olduğundan emin '- burada örnek boyutu sorunlarını görmezden geliyorum, sadece bu dört gözlemi varsayalım bütün evren olun). Ancak, iki değişkenin kombinasyonu tamamen bilgilendiricidir. Bu nedenle, insanlar için neden tek bir değişkenin bir regresör olarak olduğu modeller için p-değerini kontrol etmenin (örneğin) iyi bir fikir olmadığını anlamak daha kolaydır.

Deneyimlerime göre, bu gerçekten mesajı iletir.


5

Çoklu Regresyon Katsayıları ve Beklenen İşaret Yanılgısı

Bir veri analizi alıştırması yoluyla istatistiksel bir kavramın en sevdiğim örneklerinden biri, çoklu regresyonun çoklu iki değişkenli regresyonlara ayrıştırılmasıdır.

Hedefler

  • Çoklu öngörücülerin varlığında regresyon katsayılarının anlamını açıklamak.
  • Öngörücüler ilişkilendirildiğinde Y ile iki değişkenli ilişkisine dayalı olarak çoklu bir regresyon katsayısının belirli bir işarete sahip olmasını “beklemenin” nedenini göstermek.

kavram

Çoklu regresyon modelindeki regresyon katsayıları, a) belirli bir prediktör değişkeninin (x1) modeldeki diğer tüm prediktör değişkenleri (x2 ... xN) ile ilişkili olmayan kısmı; ve 2) yanıt değişkeninin (Y) modeldeki diğer tüm belirleyici değişkenlerle (x2 ... xN) ilgili olmayan kısmı. Öngörücüler arasında korelasyon olduğunda, yordayıcı katsayılarıyla ilişkili işaretler, bu artıklar arasındaki ilişkileri temsil eder.

Egzersiz yapmak

  1. İki öngörücü (x1, x2) ve bir yanıt (y) için bazı rastgele veriler oluşturun.
  2. X2'de y'ye basın ve kalıntıları saklayın.
  3. X1 üzerindeki x1'e gerileyin ve kalıntıları saklayın.
  4. Adım 2 (r1) 'de kalanlar, aşama 3 (r2)' de kalanlar üzerine gerilemektedir.

R2 için adım 4 katsayısı, x1 ve x2 içeren çoklu regresyon modeli için x1 katsayısı olacaktır. Aynı şeyi x2 için hem y hem de x2 için x1'i kısmi olarak yapabilirsiniz.

İşte bu alıştırma için bazı R kodu.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

İşte ilgili çıktılar ve sonuçlar.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.