Kademeli regresyon, nüfusun r-karesi hakkında önyargılı bir tahmin sağlıyor mu?


14

Psikoloji ve diğer alanlarda genellikle aşağıdakileri içeren bir tür kademeli regresyon kullanılır:

  1. Kalan yordayıcılara bakın (ilk başta modelde hiçbiri yoktur) ve en büyük r-kare değişikliğine neden olan yordayıcıyı tanımlayın;
  2. R-kare değişikliğinin p-değeri alfadan (tipik olarak .05) düşükse, o zaman kestiriciyi ekleyin ve 1. adıma geri dönün, aksi takdirde durun.

Örneğin, bu yordamı bkz SPSS .

Prosedür çok çeşitli nedenlerle rutin olarak eleştirilir ( Stata web sitesinde referanslarla bu tartışmaya bakın ).

Özellikle, Stata web sitesi Frank Harrell'in birkaç yorumunu özetlemektedir. İddia ile ilgileniyorum:

[kademeli regresyon], yüksek derecede kötü bir şekilde önyargılı olan R kare değerlerini verir.

Özellikle, mevcut araştırmamın bir kısmı nüfusun r-karesini tahmin etmeye odaklanıyor . Popülasyon r-karesi ile popülasyonda popülasyon verileri üreten denklem tarafından açıklanan varyans yüzdesini ifade ediyorum. İncelediğim mevcut literatürün çoğu aşamalı regresyon prosedürlerini kullanmıştır ve sağlanan tahminlerin taraflı olup olmadığını ve eğer öyleyse ne kadar olduğunu bilmek istiyorum. Özellikle, tipik bir çalışmada 30 öngörücü, n = 200, .05'lik alfa girişi ve .50 civarında r-kare tahminleri olacaktır.

Ne biliyorum:

  • Asimptotik olarak, sıfır olmayan bir katsayısı olan herhangi bir öngörücü istatistiksel olarak anlamlı bir öngörücü olacaktır ve r-kare ayarlanmış r-kareye eşit olacaktır. Bu nedenle, asemptolojik olarak aşamalı regresyon, gerçek regresyon denklemini ve gerçek popülasyon r-karesini tahmin etmelidir.
  • Daha küçük numune boyutlarında, bazı öngörücülerin olası ihmali, tüm öngörücülerin modele dahil edilmesinden daha küçük bir r-kare ile sonuçlanacaktır. Fakat aynı zamanda, verileri örneklemek için r-karesinin olağan yanlılığı r-karesini artıracaktır. Benim saf düşüncem, potansiyel olarak, bu iki karşıt gücün belirli koşullar altında tarafsız bir r-kare ile sonuçlanabileceğidir. Ve daha genel olarak, yanlılığın yönü, verilerin çeşitli özelliklerine ve alfa dahil etme kriterlerine bağlı olacaktır.
  • Daha katı bir alfa dahil etme kriteri (örn., .01, .001, vb.) Ayarlamak, beklenen herhangi bir kareyi düşürmelidir, çünkü verilerin herhangi bir nesline herhangi bir öngörücüyü dahil etme olasılığı daha az olacaktır.
  • Genel olarak, r-kare, r-kare popülasyonunun yukarı yönlü bir tahminidir ve bu önyargının derecesi daha fazla yordayıcı ve daha küçük numune boyutları ile artar.

Soru

Sonunda sorum:

  • Kademeli regresyondan elde edilen r-kare, r-kare popülasyonunun ne kadar önyargılı bir tahminiyle sonuçlanır?
  • Bu önyargı, örneklem büyüklüğü, öngörücü sayısı, alfa dahil etme kriteri veya verilerin özellikleri ile ne ölçüde ilgilidir?
  • Bu konuda referans var mı?

3
Stata SSS'nin ana sürümü, Frank Harrell'in 2001 kitabı Regresyon modelleme stratejilerini önceden belirtti . New York: Springer, buradan başlayacağım referans.
Nick Cox

3
@FrankHarrell tarafından Nick Cox orada bahsettiğini kitap okumak tavsiye; Lisansüstü öğrencilerimi düzenli olarak atar ve ondan okuyan öğrencileri onurlandırırım (özellikle bölüm 4). R ^ 2'nin değişken seçim mevcudiyetinde önyargılı olması, nüfus korelasyonu sıfır olan birçok veri kümesini (örneğin n = 100, p = 50) simüle ederek ve ardından göstermek istediğiniz değişken seçim prosedürünü yaparak oldukça kolaydır. üstünde.
Glen_b-Monica

5
Yorumların belirttiği gibi, simülasyon, bilinen bir durumda, aşamalı regresyonun abarttığını ve ne kadar olduğunu gösterebileceğini gösterebilir. Ancak, nüfus değerlerinin ne olması gerektiğini bilmediğiniz bir durumda ne kadar enflasyon olduğunu gösteremez. Yani, sadece aşamalı olarak önyargılı olmanın sonuçları değil, tahmin edilmesi çok zor (imkansız değilse de) yollarla önyargılıdırlar. R2
Peter Flom - Monica'yı eski durumuna döndürün

3
Eğer popülasyon R ^ 2 sıfır ise, aşamalı seçim kullanmasanız bile örnek R ^ 2'nin taraflı olduğunu düşünürüm. R ^ 2 popülasyonunun sıfır olmadığında da önyargılı olacağından şüpheleniyorum (ancak emin değilim).
mark999

2
Popülasyonun bir ve bir çeşit model seçimi yaptığımızı söylemek, örnekleme durumu hakkında bazı özel varsayımlar yapmaktır - 'gerçek' bir model olduğu ve belirli bir boyutu olduğu, dikkate alınması gereken gerçek modelde olduğundan daha fazla değişken (en azından potansiyel olarak daha fazla) vb. Tüm değişkenlerin yanıtla aynı derecede güçlü bir şekilde ilişkili olmadığı yönünde bir ima bile var. Bu amaçla, özellikleri araştırmak için yaptığımız simülasyonların, kurduğu tüm imalara uyması gerektiğini düşünüyorum. R2
Glen_b-Monica

Yanıtlar:


5

Kitabımda atıfta bulunularak, değişken seçimi yaparken neredeyse tarafsız bir tahminini elde etmek için, ayarlanan için aday tahmin edicilerinin sayısını değil, seçilen " "yordayıcılar. Bu nedenle, değişken seçimin neden olduğu önyargılar önemlidir. Belki daha da önemlisi, değişken seçimi daha kötü gerçek ve "doğru" değişkenleri gerçekten bulamamakla sonuçlanır .R 2 R 2R2R2R2


Özellikle aday öngörücülerinin sayısı gözlem sayısını aştığında!
Alexis

2

genel bakış

Birçok araştırmacı aşamalı regresyon ile ilgili birçok sorunu tartışmıştır (örn., Bölüm 4.3'te @FrankHarrell (2001)). Harrell özellikle " yüksek önyargılı değerleri verdiğini" belirtmektedir (s.56). Bu ifadenin, tahmin olduğunu düşündüğünüze dayanarak birkaç olası yorumu vardır. Tahminin bir tür olduğunu varsayarsanız, aşağıdakiler söylenebilir: Bu, veri üretme sürecinin, örneklem büyüklüğünün, öngörücülerin kümesinin ve öngörücü girişinin p-değeri ölçütünün bazı kombinasyonları için geçerli olsa da, her durumda doğru değil.ρ 2R2ρ2

Spesifik olarak, kademeli regresyondan , tahmin edilirken belirli bir yönde doğal olarak önyargılı değildir . Kademeli regresyona öngörücülerin girilmesi için p-değeri kriteri, kademeli olarak beklenen değeri modüle etmek için kullanılabilir (yani, tahmincisi ). Spesifik olarak, girişin p değeri sıfıra yaklaştıkça, son modele dahil edilen herhangi bir öngörücünün olasılığı sıfıra yaklaşır ve basamaklı beklenen değeri sıfıra yaklaşır. Birinin bir giriş p-değeri, tüm belirleyicileri muhafaza edilecektir, ve aşamalı , aynı eğilim göstereceğiρ 2R2ρ2ρ 2 R 2 R 2 R 2 ρ 2R2ρ2R2R2R2tüm öngörücülerle gösterir. Sapma, monoton olarak girişin p değeri ile ilişkilidir. Bu nedenle, tarafsız bir tahmini ile sonuçlanan bir p-değeri girişi olacaktır .ρ2

Farklı koşullar altında birkaç simülasyon yaptım. Yaklaşık olarak tarafsız bir tahmin veren öngörücü girişinin p değeri genellikle .05 ile .0001 arasında değişmektedir. Ancak, bunu açıkça araştıran ya da verilen bir p-değeri girişini kullanarak ve verilerin özellikleri verilen kademeli değerlerinden ne tür bir önyargı beklenmesi konusunda tavsiyede bulunmuş simülasyonları henüz okumadım .R2

Bununla birlikte, pratik amaçlar için, düzeltilmiş özel olarak tahmin etmek için tasarlanmıştır . Bu nedenle, tahmin etmek , yalnızca aşamalı bir regresyona girişin p-değerinin, yaklaşık olarak tarafsız bir tahminle sonuçlanabilmesi için doğru olmasını ummaktan daha uygundurρ 2 ρ 2R2ρ2ρ2 .

Simülasyon

Aşağıdaki simülasyon, r-kare popülasyonunun% 40 olduğu ilişkisiz dört öngörücüye sahiptir. Öngörülerin ikisi her biri% 20, diğer iki yordayıcı% 0'ı açıklar. Simülasyon 1000 veri kümesi oluşturur ve her veri kümesi için yüzde olarak kademeli regresyon r-karesini tahmin eder.

# source("http://bioconductor.org/biocLite.R")
# biocLite("maSigPro") # provides stepwise regression function two.ways.stepfor 
library(maSigPro)
get_data <- function(n=100) {
    x1 <- rnorm(n, 0, 1)
    x2 <- rnorm(n, 0, 1)
    x3 <- rnorm(n, 0, 1)
    x4 <- rnorm(n, 0, 1)
    e  <- rnorm(n, 0, 1)
    y <- 1 * x1 + 1 * x2 + sqrt(3) * e
    data <- data.frame(y, x1, x2, x3, x4)
    data
}

get_rsquare <- function(x, alpha=.05) {
    fit <- two.ways.stepfor(x$y, subset(x, select=-y),  alfa=alpha)
        class(fit) <-'lm'
        summary.lm(fit)$r.square * 100
}

Aşağıdaki kod, .01, .001, .0001 ve .00001 girişleri için alfa içeren r-karesini döndürür.

set.seed(1234)
simulations <- 1000
datasets <- lapply(seq(simulations), function(X) get_data(n=100))
rsquares01 <- sapply(datasets, function(X) get_rsquare(X, alpha=.01))
rsquares001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.001))
rsquares0001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.0001))
rsquares00001 <- sapply(datasets, function(X) get_rsquare(X, alpha=.00001))

Aşağıdaki sonuçlar beş alfa girdisinin her biri için sapma olduğunu göstermektedir. Farkları görmeyi kolaylaştırmak için r-karesini 100 ile çarptığımı unutmayın.

mean(rsquares01) - 40 
mean(rsquares001) - 40 
mean(rsquares0001) - 40 
mean(rsquares00001) - 40 
sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias 

Sonuçlar .01 ve .001 girdilerinin alfa değerinin pozitif yanlılığa, .0001 ve .00001 girişlerinin alfa değerinin negatif yanlılığa neden olduğunu göstermektedir. Tahminen .0005 civarında bir alfa girişi tarafsız adım adım gerilemeye neden olacaktır.

> mean(rsquares01) - 40 
[1] 1.128996
> mean(rsquares001) - 40 
[1] 0.8238992
> mean(rsquares0001) - 40 
[1] -0.9681992
> mean(rsquares00001) - 40 
[1] -5.126225
> sd(rsquares01)/sqrt(simulations) # approximate standard error in estimate of bias
[1] 0.2329339

Bundan aldığım ana sonuç, aşamalı regresyonun doğası gereği belirli bir yönde önyargılı olmamasıdır. Bununla birlikte, öngörücü girişinin bir p değeri dışındaki herkes için en azından bir şekilde taraflı olacaktır. @Peter Flom'un gerçek dünyada veri oluşturma sürecini bilmediğimize dikkat çekiyorum. Bununla birlikte, bu yanlılığın nasıl değiştiğine dair daha ayrıntılı bir keşif, n, giriş alfa, veri oluşturma süreçleri ve kademeli regresyon prosedürü (örn., Geriye doğru geçiş dahil), bu önyargıların anlaşıldığını önemli ölçüde bildirebilir.

Referanslar

  • Harrell, FE (2001). Regresyon modelleme stratejileri: doğrusal modellere uygulamalar, lojistik regresyon ve hayatta kalma analizi. Springer.

Hala önyargılı (söyleyebilirim), önyargıyı çok azalttınız.
Jeremy Miles

@JeremyMiles Evet. Ancak, doğası gereği belirli bir yönde önyargılı değildir.
Jeromy Anglim

@FrankHarrell'ın bunu ele geçirdiğini görmek isterim.
Glen_b -Manica Monica

1
+1 İyi iş çıkardın! Ama sonucun farklı olmamalı mı? Izin vermek " " p-girmek için ile adım adım regresyon kullanarak tahmin olsun . Herhangi bir popülasyon için nin tarafsız olduğu en az bir olduğunu kabul ettiniz (ve kısmen gösterdiniz) . İyi: ama o nasıl seçersiniz ? Ne olduğunu bilmiyorsanız, o zaman başladığın doğru geri konum görünüyor, ancak bu sefer biliyorum o Eğer bir şanslı bir tahmin yaptı sürece olan "doğal olarak" önyargılı . R 2 p p S W ( p ) p S W ( p ) pSW(p)R2ppSW(p)pSW(p)p
whuber

1
@whuber Umarım bahsettiğiniz birkaç noktayı daha net hale getirmek için son paragrafı değiştirdim.
Jeromy Anglim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.