Ne demek istediğini bir "sınır" ile düşünmelisin. Vakalardan daha fazla yordayıcıya sahip olduğunuzda, parametre kestiriminde sorunlarla karşılaştığınız gibi sınırlar vardır (bu cevabın altındaki küçük R simülasyonuna bakın).
Bununla birlikte, istatistiksel güç ve iyi istatistiksel uygulama ile ilgili yumuşak sınırlar hakkında daha fazla konuştuğunuzu düşünüyorum. Bu durumda "sınırlar" ın dili gerçekten uygun değildir. Daha ziyade, daha büyük örnek boyutları daha fazla yordayıcıya sahip olmayı daha makul hale getirme eğilimindedir ve kaç yorganın makul olduğunun eşiği makul bir sürekliliğin sürekliliğine bağlıdır. Sen bulabilirsiniz çoklu regresyon örnek boyutu için başparmak kuralları tartışmaya belirleyicileri sayısına başparmak yapmak referans birçok kurallar gibi, ilgili.
Birkaç puan
- Bireysel öngörücülerin istatistiksel öneminden daha fazla genel tahmin ile ilgileniyorsanız, tek tek öngörücülerin istatistiksel önemiyle ilgilenmekten daha fazla yordayıcı eklemek mantıklı olabilir.
- Araştırma sorunuzla ilgili belirli bir istatistiksel modeli test etmekle daha fazla ilgileniyorsanız (örneğin, birçok sosyal bilim uygulamasında yaygın olduğu gibi), muhtemelen belirli tahmin edicileri dahil etmek için nedenleriniz vardır. Bununla birlikte, hangi tahmin edicileri dahil ettiğiniz seçici olma fırsatlarınız da olabilir (örneğin, benzer bir yapıyı ölçen birden fazla değişkeniniz varsa, bunlardan yalnızca birini dahil edebilirsiniz). Teori tabanlı model testi yaparken, birçok seçenek vardır ve hangi öngörücülerin dahil edileceğine dair karar, teoriniz ve araştırma sorunuz arasında yakın bir bağlantı içerir.
- Sıklıkla bonferroni düzeltmelerini kullanan araştırmacıların regresyon katsayılarının anlamlılık testlerine uygulandığını görmüyorum. Bunun makul bir nedeni, araştırmacıların modelin genel özelliklerini değerlendirmekle daha fazla ilgilenmeleri olabilir.
- Eğer yordayıcıların göreceli önemini değerlendirmekle ilgileniyorsanız, hem yordayıcı ve sonuç arasındaki iki değişkenli ilişkinin yanı sıra diğer yordayıcılar için yordayıcı ve sonuç denetimi arasındaki ilişkiyi incelemeyi yararlı buluyorum. Birçok öngörücü eklerseniz, birbiriyle yüksek oranda ilişkilendirilmiş öngörücüler eklemeniz daha olasıdır. Bu gibi durumlarda, iki değişkenli ve modele dayalı önem indekslerinin yorumlanması faydalı olabilir, çünkü iki değişkenli bir anlamda önemli bir değişken bir modelde diğer korelasyonlu öngörücüler tarafından gizlenebilir ( burada daha çok bağlantılarla detaylandırıyorum ).
Biraz R simülasyonu
Bu küçük simülasyonu çoklu regresyonda örnek büyüklüğü ve parametre tahmini arasındaki ilişkiyi vurgulamak için yazdım.
set.seed(1)
fitmodel <- function(n, k) {
# n: sample size
# k: number of predictors
# return linear model fit for given sample size and k predictors
x <- data.frame(matrix( rnorm(n*k), nrow=n))
names(x) <- paste("x", seq(k), sep="")
x$y <- rnorm(n)
lm(y~., data=x)
}
fitmodel
İşlev, iki bağımsız değişken n
bir numune boyutu için ve k
prediktörler sayısı. Sabiti sabit olarak saymıyorum, ama tahmin ediliyor. Daha sonra rasgele veri üretir ve k
öngörücü değişkenlerden ay değişkenini tahmin eden bir regresyon modeline uyar ve uygunluğu döndürürüm.
Sorunuzda, 10 öngörücünün çok fazla olup olmadığıyla ilgilendiğinizi belirttiğinizde, aşağıdaki işlev çağrıları, sırasıyla örnek boyutu 9, 10, 11 ve 12 olduğunda ne olduğunu gösterir. Yani, örneklem büyüklüğü öngörücülerin sayısından birinden daha az tahmincilerin sayısından ikiye kadardır
summary(fitmodel(n=9, k=10))
summary(fitmodel(n=10, k=10))
summary(fitmodel(n=11, k=10))
summary(fitmodel(n=12, k=10))
> özet (fitmodel (n = 9, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 9 residuals are 0: no residual degrees of freedom!
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.31455 NA NA NA
x1 0.34139 NA NA NA
x2 -0.45924 NA NA NA
x3 0.42474 NA NA NA
x4 -0.87727 NA NA NA
x5 -0.07884 NA NA NA
x6 -0.03900 NA NA NA
x7 1.08482 NA NA NA
x8 0.62890 NA NA NA
x9 NA NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 8 and 0 DF, p-value: NA
Örneklem büyüklüğü tahmin edicilerin sayısından daha azdır. Sadece biri sabit olan 9 parametreyi tahmin etmek mümkündür.
> özet (fitmodel (n = 10, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!
Coefficients: (1 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.1724 NA NA NA
x1 -0.3615 NA NA NA
x2 -0.4670 NA NA NA
x3 -0.6883 NA NA NA
x4 -0.1744 NA NA NA
x5 -1.0331 NA NA NA
x6 0.3886 NA NA NA
x7 -0.9886 NA NA NA
x8 0.2778 NA NA NA
x9 0.4616 NA NA NA
x10 NA NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 9 and 0 DF, p-value: NA
Örneklem büyüklüğü, öngörücülerin sayısıyla aynıdır. Sadece biri sabit olan 10 parametre tahmin etmek mümkündür.
> özet (fitmodel (n = 11, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
ALL 11 residuals are 0: no residual degrees of freedom!
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.9638 NA NA NA
x1 -0.8393 NA NA NA
x2 -1.5061 NA NA NA
x3 -0.4917 NA NA NA
x4 0.3251 NA NA NA
x5 4.4212 NA NA NA
x6 0.7614 NA NA NA
x7 -0.4195 NA NA NA
x8 0.2142 NA NA NA
x9 -0.9264 NA NA NA
x10 -1.2286 NA NA NA
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared: 1, Adjusted R-squared: NaN
F-statistic: NaN on 10 and 0 DF, p-value: NA
Örneklem büyüklüğü tahmin edicilerin sayısından bir fazladır. Sabit dahil tüm parametreler tahmin edilir.
> özet (fitmodel (n = 12, k = 10))
Call:
lm(formula = y ~ ., data = x)
Residuals:
1 2 3 4 5 6 7 8 9 10 11
0.036530 -0.042154 -0.009044 -0.117590 0.171923 -0.007976 0.050542 -0.011462 0.010270 0.000914 -0.083533
12
0.001581
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.14680 0.11180 1.313 0.4144
x1 0.02498 0.09832 0.254 0.8416
x2 1.01950 0.13602 7.495 0.0844 .
x3 -1.76290 0.26094 -6.756 0.0936 .
x4 0.44832 0.16283 2.753 0.2218
x5 -0.76818 0.15651 -4.908 0.1280
x6 -0.33209 0.18554 -1.790 0.3244
x7 1.62276 0.21562 7.526 0.0841 .
x8 -0.47561 0.18468 -2.575 0.2358
x9 1.70578 0.31547 5.407 0.1164
x10 3.25415 0.46447 7.006 0.0903 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2375 on 1 degrees of freedom
Multiple R-squared: 0.995, Adjusted R-squared: 0.9452
F-statistic: 19.96 on 10 and 1 DF, p-value: 0.1726
Örneklem büyüklüğü, öngörücülerin sayısından iki daha fazladır ve nihayet tüm modelin uygunluğunu tahmin etmek mümkündür.