Doğrusal regresyonda önem çelişkisi: anlamlı olmayan genel F istatistiğine karşı bir katsayı için anlamlı t testi


35

4 kategorik değişken (her biri 4 seviye ile) ve sayısal çıktı arasında çoklu doğrusal regresyon modeli kullanıyorum. Veri setimin 43 gözlemi var.

Regresyon bana her eğim katsayısı için testindeki şu -değerlerini verir : . Bu nedenle, 4. belirleyicinin katsayısı güven düzeyindedir.pt.15,.67,.27,.02α=.05

Öte yandan, regresyon bana tüm eğim katsayılarımın sıfıra eşit olduğu varsayımının genel testinden bir değeri verir . Veri setim için bu değeri .pFp.11

Sorum şu: bu sonuçları nasıl yorumlamalıyım? Hangi -değeri kullanmalıyım ve neden? Önemli ölçüde farklı 4 değişken için katsayı mı at güven düzeyi?p0α=.05

Bir regresyonda F ve t istatistiği ile ilgili bir soru gördüm , ancak tam tersi bir durum vardı: yüksek t testi p -değerleri ve düşük F testi p değeri. Açıkçası, lineer regresyon katsayılarının sıfırdan önemli ölçüde farklı olup olmadığını görmek için t- testine ek olarak neden bir F testine ihtiyaç duyduğumuzu tam olarak anlamıyorum .t


2
Her biri 4 seviyeli 4 kategorik değişkeniniz varsa, bağımsız değişkenleriniz için 3 * 4 = 12 katsayıya sahip olmalısınız (artı engelleme) ...
boscovich

@verea: Onlara sayısal değişkenler olarak bakmaya karar verdim.
Leo,

4
0.02 çok önemli (özellikle toplamda beş test yaptırdığınız gerçeğini düşünüyorsanız) ve 0.11 çok yüksek değil. Cömert bir yorum, biraz daha fazla güçle genel F-testinin de önemli olacağı (ve belki de ilk katsayısı) olacaktır. Daha muhafazakar bir yorum, bu sonuçların hiçbirine (02 p değeri olan katsayı da dahil olmak üzere) fazla güvenmemeniz gerektiğidir. Her iki durumda da, .02 ile .11 arasındaki farkları çok fazla okumamalısınız.
Gala

3
Karşıt dava hakkında bir tartışma için, burada da görebilirsiniz: yukarıda verilen soruya ek olarak, bir gerileme nasıl önemli olabilir, ancak tüm tahminciler önemsiz olabilir .
gung - Reinstate Monica

Yanıtlar:


37

Çok kutupluluğun burada olan şey olduğundan emin değilim. Kesinlikle olabilir , ama verilen bilgilerden bunu bitiremiyorum ve oradan başlamak istemiyorum. İlk tahminim, bunun çoklu karşılaştırma sorunu olabileceği yönünde. Yani, yeterince test yaparsanız, orada hiçbir şey olmasa bile bir şeyler görünecektir.

Üzerinde durduğum konulardan biri, çoklu karşılaştırma probleminin her zaman birçok çiftli karşılaştırmanın incelenmesiyle tartışılmasıdır - örneğin, her benzersiz seviye eşleşmesinde t testleri yapmak. (Birden fazla kıyaslamanın mizahi bir tedavisi için, buraya bakın .) Bu, bu sorunun ortaya çıktığı tek yer olduğu izlenimini uyandırıyor. Ancak bu sadece doğru değil - çoklu karşılaştırma sorunu her yerde ortaya çıkıyor. Örneğin, 4 açıklayıcı değişkeni olan bir regresyon çalıştırırsanız, aynı sorunlar vardır. İyi tasarlanmış bir deneyde, IV'ler dikgen olabilir, ancak insanlar rutin olarak a priori, ortogonal kontrast setlerinde Bonferroni düzeltmelerini kullanmaktan endişe duyuyor ve faktoring ANOVA'ları hakkında iki kez düşünmüyorlar. Aklıma göre bu tutarsız.

Global F testi 'eşzamanlı' test olarak adlandırılır. Bu, tüm öngördürücülerinizin yanıt değişkeniyle ilgisi olup olmadığını kontrol eder . Eşzamanlı test, güç kaybeden Bonferroni güzergahına gitmek zorunda kalmadan çoklu karşılaştırma problemine karşı bir miktar koruma sağlar. Maalesef, bildirdiklerinize dair yorumum, boş bir bulgunuz olduğu.

Bu yorumlamaya karşı birçok şey hafifletilir. İlk olarak, sadece 43 veri ile neredeyse kesinlikle çok fazla güce sahip değilsiniz. Gerçek bir etkisi olması oldukça muhtemel, ancak daha fazla veri olmadan çözemezsiniz. İkincisi, @ andrea ve @Dimitriy gibi, 4 seviyeli kategorik değişkenleri sayısal olarak ele almanın uygunluğundan endişeleniyorum. Bu uygun olmayabilir ve gerçekten orada olanı tespit etme yeteneğinizi azaltmak da dahil olmak üzere herhangi bir sayıda etkiye sahip olabilir. Son olarak, önem testinin insanların inandığı kadar önemli olduğundan emin değilim. Bir p arasında 0,11 olan tür düşük; Orada gerçekten bir şeyler mi var? olabilir! kim bilir? -05’te appearance parlak çizgi ’yoktur.


24

Bu fenomenin (önemli bir bireysel değişkene rağmen anlamlı olmayan bir genel testin) bir tür toplu "maskeleme etkisi" olarak anlaşılabileceğini ve çok yönlü açıklayıcı değişkenlerden ortaya çıkabileceğini düşünüldüğü halde, yapılması gerektiğini belirtmek isterim. hiç de değil. Ayrıca, çoklu karşılaştırma ayarlarından da kaynaklanmıyor. Bu nedenle, bu cevap, daha önce ortaya çıkmış olan cevaplara bazı nitelikler katmaktadır, bunun aksine, çok kutupluluk veya çoklu karşılaştırmaların suçlulara bakılması gerektiğini göstermektedir.

Bu iddiaların uygunluğunu belirlemek için, tam olarak ortogonal değişkenler - mümkün olduğu kadar collinear olmayan - ve sadece açıklamaların ilkiyle açıkça belirlenmiş bir bağımlı değişken (ve iyi miktarda rastgele hata) oluşturalım her şeyden bağımsız). Bu Ryapılabilir (denemek isterseniz, deneysel olarak)

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Açıklayıcı değişkenlerin ikili olması önemsizdir; önemli olan ortogonalitedir, kodun beklendiği gibi çalıştığından emin olmak için kontrol edebiliriz, bu onların korelasyonlarını inceleyerek yapılabilir. Aslında, korelasyon matrisi ilginçtir : önerilen küçük katsayılar y, birincisi (tasarım tarafından olan) ve diyagonal olmayan sıfırların dışındaki değişkenlerin hiçbiriyle ilgisi olmadığını ve açıklayıcı değişkenlerin dikgenliğini onayladığını gösterir:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Şimdi sadece ilk değişkeni, sonra ilk ikisini kullanarak bir dizi regresyon çalıştıralım . Kısalıklık ve kolay karşılaştırma için, her birinde yalnızca ilk değişken ve genel F testi için satır gösteriyorum:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

(A) ilk değişkenin öneminin ne kadar değiştiğine bakın, (a ') ilk değişkenin çoklu karşılaştırmalar için ayarlama yaparken bile (p <.05) anlamlı kalmaya devam etmesini sağlayın ( örneğin , Bonferroni'yi nominal p-değeri ile çarparak uygulayın). açıklayıcı değişkenlerin sayısı), (b) ilk değişkenin katsayısı zar zor değişiyor, fakat (c) genel önem katlanarak artmakta ve hızla anlamlı olmayan bir seviyeye şişmektedir.

Bunu , bağımlı değişkenden büyük ölçüde bağımsız olan açıklayıcı değişkenleri dahil etmenin, regresyonun genel p-değerini "maskeleyebileceğini" göstermek olarak yorumluyorum . Yeni değişkenler var olanlara ve bağımlı değişkene dikey olduğunda, bireysel p-değerlerini değiştirmezler. (Burada görülen küçük değişiklikler, buna eklenen rasgele hatanın y, kazayla, diğer tüm değişkenlerle hafifçe korelasyon göstermesidir.) Bundan çıkarılacak bir ders, para cezasının değerli olduğudur : Gerektiği kadar az değişken kullanmak, önemini artırabilir. sonuçlar.

Ben am değil bu mutlaka küçük ifşa edildiği konusunda söz konusu veri kümesi için oluyor söyleyerek. Ancak bu maskeleme etkisinin olabileceği bilgisi , sonuçların yorumlanmasının yanı sıra değişken seçimi ve model oluşturma stratejilerimizi de bilgilendirmelidir.


+1, bu analizde katılıyorum. FWIW, bu diğer soruya cevabımdaki güç hakkındaki tartışmamda (belki de iyi değil) bahsettiğim açıklamadır . Buradaki sürümünüzle ilgili 1 sorum var, neden 32 terimini hata teriminizin ortalaması olarak kullanıyorsunuz? Bu bir yazım hatası mı, yoksa bir şekilde önemli mi?
gung - Reinstate Monica

@gung Nerede 32 görüyorsunuz? Eğer atıfta bulunuyorsanız rnorm(2^p, sd=2), lütfen ilk argümanın ortalama değil terim sayısı olduğuna dikkat edin. Varsayılan olarak ortalama sıfırdır ve bu nedenle açıkça belirtilmemiştir.
whuber

rnorm()N-(μ,σ)

@gung Kodu açıklığa kavuşturma fırsatı bulduğum için minnettarım ve bu nedenle rahatsız edici çizgiyi düzenledim.
whuber

11

Bunu, açıklayıcı değişkenleriniz arasında yüksek derecede bir ortaklığa sahip olduğunuzda meydana gelirsiniz. ANOVA F, tüm regresörlerin müştereken bilgilendirici olmadığı ortak bir testtir . X'leriniz benzer bilgiler içerdiğinde, model açıklayıcı gücü bir regresöre veya başka birine bağlayamaz, ancak bunların kombinasyonu yanıt değişkenindeki değişimin çoğunu açıklayabilir.

x1y


Eşdoğrusallık bir sorunsa, o zaman yüksek standartlarda hatalar ve belki de yanlış işaretlerle bile muhtemelen büyük katsayılar elde edersiniz. Bunun olup bittiğinden emin olmak için, regresyonunuzdan sonra varyans enflasyon faktörlerini (VIF'ler) hesaplayın. Makul bir kural, en büyük VIF'in 10'dan büyük olması durumunda, eşlikliliğin bir sorun olduğudur. Öyleyse, burada gerçekten iki seçeneğiniz var. Birincisi, değişkenlerinizden bazılarını bırakarak doğrusal-doğrusal bağımlılığı azaltmak için modeli yeniden belirlemektir. İkincisi daha büyük ve / veya daha iyi (daha az homojen) bir örnek elde etmektir.
Dimitriy V. Masterov

1
(+1) Bu açıklama iyi bir konudur, ancak olguyu çok kutuplulukla ilişkilendirmek gerekli değildir: temel ayrım ortak bilgilendirici ve bireysel olarak bilgilendirici arasındadır. İlişkili olmayan ek regresörlerin dahil edilmesi (herhangi bir çok kutupluluktan kaçınır), ikincisini değiştirmeden bırakarak eskisi düşürür.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.