Nüfus r-kare değişiminde güven aralığı nasıl elde edilir


10

Basit bir örnek uğruna iki doğrusal regresyon modeli olduğunu varsayalım.

  • Model 1 sahiptir üç belirleyicileri x1a, x2bvex2c
  • Model 2, model 1'den üç öngörücüye ve iki ek öngörücüye sahiptir x2avex2b

Kitle varyansı olduğu açıklanmıştır nüfus regresyon denklemi vardır Model 1 için ve Model 2 için artan varyans nüfus içinde Model 2 ile açıklanabilir ρ 2 ( 2 ) Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ(1)2ρ(2)2Δρ2=ρ(2)2-ρ(1)2

tahmincisi için standart hatalar ve güven aralıkları elde etmekle ilgileniyorum . Örnek sırasıyla 3 ve 2 öngörücüyü içeriyor olsa da, araştırma ilgim çok sayıda farklı yordayıcıyla (ör. 5 ve 30) ilgilidir. İlk düşüncem bir tahmin edici olarak kullanmaktı, ama bunun olup olmadığından emin değildim uygun olmak. Δ r 2 a d j = r 2 a d j ( 2 ) - r 2 a d j ( 1 )Δρ2Δrbirdj2=rbirdj(2)2-rbirdj(1)2

Sorular

  • Mı makul bir tahmincisi ? Δ ρ 2Δrbirdj2Δρ2
  • Pop-kare değişimi için bir güven aralığı nasıl elde edilebilir (yani, )?Δρ2
  • Önyükleme Δρ2 güven aralığı hesaplaması için uygun olur mu?

Simülasyonlara veya yayınlanmış literatüre yapılan göndermeler de memnuniyetle karşılanacaktır.

Örnek kod

Eğer yardımcı olursa, R'de bir cevap göstermek için kullanılabilecek küçük bir simülasyon veri kümesi oluşturdum:

n <- 100
x <- data.frame(matrix(rnorm(n *5), ncol=5))
names(x) <- c('x1a', 'x1b', 'x1c', 'x2a', 'x2b')
beta <- c(1,2,3,1,2)
model2_rho_square <- .7
error_rho_square <- 1 - model2_rho_square
error_sd <- sqrt(error_rho_square / model2_rho_square* sum(beta^2))
model1_rho_square <- sum(beta[1:3]^2) / (sum(beta^2) + error_sd^2)
delta_rho_square <- model2_rho_square - model1_rho_square

x$y <- rnorm(n, beta[1] * x$x1a + beta[2] * x$x1b + beta[3] * x$x1c +
               beta[4] * x$x2a + beta[5] * x$x2b, error_sd)

c(delta_rho_square, model1_rho_square, model2_rho_square)
summary(lm(y~., data=x))$adj.r.square - 
        summary(lm(y~x1a + x1b + x1c, data=x))$adj.r.square

Bootstrap ile ilgili endişe nedeni

Bazı verilerde yaklaşık 300 vaka ve basit modelde 5 tahminci ve tam modelde 30 tahminci ile bir bootstrap çalıştırdım. Düzeltilmiş r-kare farkı kullanan örnek tahmini 0.116, güçlendirilmiş güven aralığı çoğunlukla% CI95 (0.095 ila 0.214) arasındaydı ve önyüklemelerin ortalaması örnek tahmininin yakınında değildi. Daha ziyade, güçlendirilmiş numunelerin ortalamasının, numunedeki r-kareler arasındaki farkın örnek tahminine odaklandığı görülmüştür. Bu, farkı tahmin etmek için örnek ayarlı r-karelerini kullandığım gerçeğine rağmen.

İlginç bir şekilde, hesaplamanın alternatif bir yolunu denedim .Δρ2

  1. örnek r-kare değişimini hesapla
  2. standart ayarlanmış r-kare formülünü kullanarak örnek r-kare değişikliğini ayarlayın

Örnek veri uygulandığında bu tahmini, indirgenmiş için değil güven aralıkları .118 ortalama ile ilk bahsedilen yöntem, CI95,% (.062, 0,179) için uygun gibiydi.Δρ2.082

Genel olarak, önyüklemenin örneklemin popülasyon olduğunu varsaydığından endişe duyuyorum ve bu nedenle aşırı sığdırmayı azaltan tahminler uygun şekilde çalışmayabilir.


"Ancak, böyle bir nüfus ayarlı değerin önyüklemesinin sorunlu olabileceğinden endişe ediyorum." -- neden?
Ocak

@Ocak Soruyu düzenledim ve önyükleme ile ilgili kaygımı ayarlanmış r-kare ile ifade etmeye çalıştım.
Jeromy Anglim

R kare nüfusu nedir ? Burada verilen tanıma bir göz attım ama benim için varyasyonu anlamsız çünkü y i aynı şekilde dağılmadı. σy2yben
Stéphane Laurent

@ StéphaneLaurent popülasyonda nüfus regresyon denklemi ile açıklanan varyans yüzdesidir. Ya da asemptotik olarak numunenizde örnek büyüklüğünüz sonsuza yaklaştıkça açıklanan varyans oranı olarak tanımlayabilirsiniz. Ayrıca , r-nüfusunun tarafsız tahminlerine ilişkin bu cevaba bakınız . Özellikle tahmini tahmin denklemimizi uygulamaktan ziyade gerçek ilişkiye daha çok ilgi duyduğumuz psikoloji ile ilgilidir.
Jeromy Anglim

3
Bir F testi hipotezinin testi olarak düşünülebilir . Bu, aradığınız standart hata ve güven aralığını türetmek için kullanılabilir mi? Δρ2=0
Maarten Buis

Yanıtlar:


3

Nüfus R2

Öncelikle R kare nüfusunun tanımını anlamaya çalışıyorum .

Yorumunuz alıntılanıyor:

Ya da asemptotik olarak numunenizde örnek büyüklüğünüz sonsuza yaklaştıkça açıklanan varyans oranı olarak tanımlayabilirsiniz.

Sanırım bu, modeli sonsuza kadar defalarca çoğalttığında (her kopyada aynı öngörücülerle) örneğinin sınırı olduğunu kastediyorsunuz . R2

Peki örneğinin asimptotik değerinin formülü nedir? Doğrusal modelinizi Y = μ + σ G , https://stats.stackexchange.com/a/58133/8402'de olduğu gibi yazın ve bu bağlantıyla aynı gösterimleri kullanın. Daha sonra R 2 örneğinin p o p R 2'ye gittiğini kontrol edebilirsiniz : = λR²Y=μ+σG
R2 , biriY=μ+σGmodelinisonsuz kezçoğaltırsa.popR2:=λn+λY=μ+σG

Örnek olarak:

> ## design of the simple regression model lm(y~x0)
> n0 <- 10
> sigma <- 1
> x0 <- rnorm(n0, 1:n0, sigma)
> a <- 1; b <- 2 # intercept and slope
> params <- c(a,b)
> X <- model.matrix(~x0)
> Mu <- (X%*%params)[,1]
> 
> ## replicate this experiment k times 
> k <- 200
> y <- rep(Mu,k) + rnorm(k*n0)
> # the R-squared is:
> summary(lm(y~rep(x0,k)))$r.squared 
[1] 0.971057
> 
> # theoretical asymptotic R-squared:
> lambda0 <- crossprod(Mu-mean(Mu))/sigma^2
> lambda0/(lambda0+n0)
          [,1]
[1,] 0.9722689
> 
> # other approximation of the asymptotic R-squared for simple linear regression:
> 1-sigma^2/var(y)
[1] 0.9721834

Bir alt modelin nüfusuR2

Şimdi modelin H 1 : μ W 1 ile olduğunu varsayın ve H 0 : μ W 0 alt modelini düşünün .Y=μ+σGH1:μW1H0:μW0

R2H1pÖpR,12: =λ1n+λ1λ1=PZ1μ2σ2Z1=[1]W1PZ1μ2=Σ(μben-μ¯)2

R,2 'H0R,2'H0'H1


Teşekkürler Stéphane. Ne dediğin hakkında bir düşünmem gerekecek. Sorunuzla ilgili olarak. Gerçek veri oluşturma sürecinin bilinmediğini, ancak her iki model için de aynı olduğunu varsayıyorum, ancak model 1 ve model 2'de doğrusal regresyon ile açıklanan gerçek bir varyans oranı var.
Jeromy Anglim

R,2

1
@JeromyAnglim Bu makalenin çalışması aradığınız şeye yakın görünüyor (rastgele tahmin edicilerle ).
Stéphane Laurent

Teşekkürler. Algina, Keselman ve Penfield gazetesi çok faydalı görünüyor. Bu konudaki cevabıma bazı yorumlar ekledim .
Jeromy Anglim

@JeromyAnglim Peki öngörücüler hakkındaki varsayım nedir? Çok değişkenli bir Gauss dağılımına göre mi üretilirler?
Stéphane Laurent

1

Sorduğunuz soruyu cevaplamak yerine, neden bu soruyu sorduğunuzu soracağım. Sanırım bilmek isteyip istemediğinizi

mod.small <- lm(y ~ x1a + x1b + x1c, data=x)

en azından kadar iyi

mod.large <- lm(y ~ ., data=x)

açıklamasında y. Bu modeller iç içe geçtiği için, bu soruyu cevaplamanın en açık yolu, bunları karşılaştıran bir varyans analizi yapmak gibi görünmektedir, aynı şekilde iki GLM için sapma analizi uygulayabilirsiniz.

anova(mod.small, mod.large)

Daha sonra, modeller arasındaki örnek R-kare geliştirmeyi, popülasyondaki uyum gelişiminin ne olacağına dair en iyi tahmininiz olarak kullanabilirsiniz, her zaman R kare nüfusu anlayabileceğinizi varsayarsak. Şahsen yapabileceğimden emin değilim, ama bununla her iki şekilde de önemli değil.

Daha genel olarak, nüfus miktarlarıyla ilgileniyorsanız, muhtemelen genellemeyle ilgileniyorsunuzdur, bu nedenle örnek bir uyum ölçütü tam olarak istediğiniz şey değildir, ancak 'düzeltildi'. Örneğin, MSE gibi örneklemeden yapmayı beklediğiniz gerçek hataların türünü ve miktarını tahmin eden bir miktarın çapraz doğrulaması, istediğiniz şeye ulaşmış gibi görünmektedir.

Ama burada bir şeyleri kaçırmak mümkün ...


Cevabınızı takdir ediyorum ve başkaları için iyi bir tavsiye olabilir. Ama araştırma bağlamım delta-rho meydanı ile meşru olarak ilgilendiğim anlamına geliyor. Çoğu istatistikçi genellikle bir modelin öngörücü faydasıyla (örneğin, çapraz doğrulanmış delta r-square) ilgilenirken, ben psikolojik bir bilim adamıyım ve özellikle nüfus mülkiyeti ile ilgileniyorum. Dahası, gelişmenin istatistiksel önemi ile ilgilenmiyorum. Gelişmenin büyüklüğü ile ilgileniyorum. Ve delta-r-square'in bu iyileştirme boyutunu endekslemek için yararlı bir metrik olduğunu düşünüyorum.
Jeromy Anglim

MSE ile ilgili olarak, psikolojideki farklı çalışmalar çok farklı metrikler üzerinde önlemler kullanır. Bu nedenle, r-kare gibi standartlaştırılmış önlemlere doğru veya yanlış bir cazibe vardır.
Jeromy Anglim

Yeterince adil, özellikle MSE'de. Önyükleme ve nüfus çıkarımına olan ilgiden biraz kafam karışıyor, ancak teste ilgi eksikliği, belki de naif olarak, bunlar farklı şekilde ele alınan eşdeğer endişeler gibi görünüyor. Ben de örnek tahmin dışında bir nüfusa çıkarım sıkı bir şekilde ayırt etmekte zorluk yaşıyorum, ama bu muhtemelen kahve öncesi diz-pislik bayesianism (nerede tahmin sadece başka bir nüfus çıkarım sorunu) engel oluyor.
konjugateprior

Belki biraz hızlı konuştum. Araştırma bağlamımda, delta-rho-square'in sıfırdan büyük olduğuna dair birçok kanıt var. İlgi konusu, artış derecesinin ne olduğudur. Yani, önemsiz bir artış ya da teorik olarak anlamlı bir artış. Böylece, güven ya da inandırıcı aralıklar bana bu artış etrafındaki belirsizliği tahmin ediyor. Burada yaptığımı henüz Bayesci istatistik anlayışımla uzlaştırmadım, ama istiyorum.
Jeromy Anglim

1

ρ2

Çift ayarlı r-kare çizme

Bir cevapta şu anki en iyi tahminim, çift ayarlı bir r-kare önyükleme yapmaktır. Tekniği uyguladım. Aşağıdakileri içerir:

  • Mevcut verilerden bir dizi bootstrap örneği oluşturun.
  • Her önyükleme örneği için:
    • iki model için ilk düzeltilmiş r-karesini hesapla
    • önceki adımdan ayarlanan r-kare değerlerinde ikinci ayarlanmış r-karesini hesapla
    • Δρ2

Gerekçe, ilk ayarlanan r-karesinin önyükleme ile ortaya çıkan önyargıyı kaldırmasıdır (yani, önyükleme, örnek r-karesinin popülasyon r-kare olduğunu varsayar). İkinci ayarlanan r-kare, popülasyon r-karesini tahmin etmek için normal bir örneğe uygulanan standart düzeltmeyi gerçekleştirir.

Bu noktada, görebildiğim tek şey, bu algoritmanın uygulanmasının doğru görünen tahminler üretmesidir (yani, bootstrap içindeki ortalama theta_hat, theta_hat örneğine çok yakındır). Standart hata sezgilerimle uyuşuyor. Henüz veri üretme sürecinin bilindiği uygun frekansta kapsama alanı sağlayıp sağlamadığını test etmedim ve bu noktada argümanın ilk ilkelerden nasıl gerekçelendirilebileceğinden tam olarak emin değilim

Bu yaklaşımın neden sorunlu olabileceğine dair herhangi bir neden görürse, bunu duyduğuma minnettar olurum.

Algina ve ark.

Δρ2

Smithson (2001) merkez dışılık parametresini kullanma hakkında

R,2f2R,2

Referanslar

  • Algina, J., Keselman, HJ ve Penfield, RD Kareli Çoklu Semipartial Korelasyon Katsayısı için Güven Güven Aralıkları. PDF
  • Smithson, M. (2001). Çeşitli regresyon etkisi boyutları ve parametreleri için doğru güven aralıkları: Hesaplama aralıklarında merkezi olmayan dağılımların önemi. Eğitim ve Psikolojik Ölçüm, 61 (4), 605-632.

1
Görünüşe göre buradaki hiç kimse (siz dahil) R kare nüfusunun tanımını bilmiyor. Dolayısıyla IMHO bu ciddi sorunlu bir yaklaşımdır.
Stéphane Laurent

@ StéphaneLaurent Bunun için teşekkürler. İtiraf ediyorum ki bu noktaya kadar nüfusu r-kare çekişme olarak görmedim. Örneğin, bir veri oluşturma süreci önerebilirim ve simülasyon örneklem boyutum sonsuza yaklaştıkça yaklaşan bir r-kare olurdu. Aynı şekilde, verilerim için bir veri oluşturma süreci olduğunu varsayıyorum ve bu nedenle sonsuz bir örnek almak mümkün olsaydı, gerçek popülasyon r-karesini hesaplayabilirdim.
Jeromy Anglim

Evet, ancak öngörücüler için bir üretim süreci olduğunu düşündüğünüz izlenimindeyim. Bunun genel bir doğrusal model için nasıl anlamlı olabileceğini anlayamıyorum.
Stéphane Laurent
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.