Basit bir örnek uğruna iki doğrusal regresyon modeli olduğunu varsayalım.
- Model 1 sahiptir üç belirleyicileri
x1a
,x2b
vex2c
- Model 2, model 1'den üç öngörücüye ve iki ek öngörücüye sahiptir
x2a
vex2b
Kitle varyansı olduğu açıklanmıştır nüfus regresyon denklemi vardır Model 1 için ve Model 2 için artan varyans nüfus içinde Model 2 ile açıklanabilir ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )
tahmincisi için standart hatalar ve güven aralıkları elde etmekle ilgileniyorum . Örnek sırasıyla 3 ve 2 öngörücüyü içeriyor olsa da, araştırma ilgim çok sayıda farklı yordayıcıyla (ör. 5 ve 30) ilgilidir. İlk düşüncem bir tahmin edici olarak kullanmaktı, ama bunun olup olmadığından emin değildim uygun olmak. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )
Sorular
- Mı makul bir tahmincisi ? Δ ρ 2
- Pop-kare değişimi için bir güven aralığı nasıl elde edilebilir (yani, )?
- Önyükleme güven aralığı hesaplaması için uygun olur mu?
Simülasyonlara veya yayınlanmış literatüre yapılan göndermeler de memnuniyetle karşılanacaktır.
Örnek kod
Eğer yardımcı olursa, R'de bir cevap göstermek için kullanılabilecek küçük bir simülasyon veri kümesi oluşturdum:
n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square
x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
beta[4] * x$x2a + beta[5] * x$x2b, error_sd)
c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square -
summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square
Bootstrap ile ilgili endişe nedeni
Bazı verilerde yaklaşık 300 vaka ve basit modelde 5 tahminci ve tam modelde 30 tahminci ile bir bootstrap çalıştırdım. Düzeltilmiş r-kare farkı kullanan örnek tahmini 0.116
, güçlendirilmiş güven aralığı çoğunlukla% CI95 (0.095 ila 0.214) arasındaydı ve önyüklemelerin ortalaması örnek tahmininin yakınında değildi. Daha ziyade, güçlendirilmiş numunelerin ortalamasının, numunedeki r-kareler arasındaki farkın örnek tahminine odaklandığı görülmüştür. Bu, farkı tahmin etmek için örnek ayarlı r-karelerini kullandığım gerçeğine rağmen.
İlginç bir şekilde, hesaplamanın alternatif bir yolunu denedim .
- örnek r-kare değişimini hesapla
- standart ayarlanmış r-kare formülünü kullanarak örnek r-kare değişikliğini ayarlayın
Örnek veri uygulandığında bu tahmini, indirgenmiş için değil güven aralıkları .118 ortalama ile ilk bahsedilen yöntem, CI95,% (.062, 0,179) için uygun gibiydi..082
Genel olarak, önyüklemenin örneklemin popülasyon olduğunu varsaydığından endişe duyuyorum ve bu nedenle aşırı sığdırmayı azaltan tahminler uygun şekilde çalışmayabilir.