Polinom regresyonu (MLR) için güven aralığının şeklini anlama


11

Polinom regresyonunun güven aralığının şeklini kavramakta güçlük çekiyorum.

Yapay bir örnek, . Soldaki şekil UPV'yi (ölçeklendirilmemiş tahmin varyansı) gösterir ve sağdaki grafik güven aralığını ve X = 1.5, X = 2 ve X = 3'teki (yapay) ölçülen noktaları gösterir.Y^=bir+bX+cX2

Temel verilerin ayrıntıları:

  • veri kümesi üç veri noktasından (1.5; 1), (2; 2.5) ve (3; 2.5) oluşur.

  • her nokta 10 kez "ölçülmüştür" ve ölçülen her değer aittir . Elde edilen 30 noktaya, poinom modelli bir MLR uygulandı.y±0.5

  • güven aralığı ve (her iki formül de Myers, Montgomery, Anderson-Cook, "Tepki Yüzey Metodolojisi" dördüncü baskı, sayfa 407 ve 34'ten alınmıştır)y(x0)-tα/2,df(error)

    UPV=Vbirr[y^(x0)]σ^2=x0'(X'X)-1x0
    uy| x0y(x0)+tα/2,df(error)
    y^(x0)tα/2,df(error)σ^2x0(XX)1x0
    μy|x0y^(x0)+tα/2,df(errÖr)σ^2x0'(X'X)-1x0.

tα/2,df(errÖr)=2 ve .σ^2=MSE=SSE/(np)0.075

Özellikle güven aralığının mutlak değerleriyle değil, sadece bağlı olan .x0'(X'X)-1x0

Şekil 1: resim açıklamasını buraya girin

  • tasarım alanının dışındaki çok yüksek tahmin edilen varyans normaldir, çünkü

  • ama neden X = 1.5 ve X = 2 arasındaki varyans ölçülen noktalardan daha küçük?

  • ve X = 2 üzerindeki değerler için varyans neden genişliyor, ancak X = 2.3'ten sonra X = 3'teki ölçülen noktadan daha küçük hale gelmek için azalıyor?

Varyansın ölçülen noktalarda küçük ve aralarında büyük olması mantıklı olmaz mı?

Düzenleme: aynı prosedür ancak veri noktaları [(1.5; 1), (2.25; 2.5), (3; 2.5)] ve [(1.5; 1), (2; 2.5), (2.5; 2.2), (3; 2.5)].

Şekil 2: resim açıklamasını buraya girin

Figür 3: resim açıklamasını buraya girin

Şekil 1 ve 2'de, Noktalardaki UPV'nin 1'e eşit olduğunu belirtmek ilginçtir. Bu, güven aralığının tam olarak eşit olacağı anlamına gelir. . Artan sayıda nokta ile (şekil 3), ölçülen noktalarda 1'den küçük UPV değerleri elde edebiliriz.y^±tα/2,df(errÖr)MSE


2
Yayınınızı, üzerinde çalıştığınız verileri içerecek şekilde düzenleyebilir misiniz?
Stephan Kolassa

@StephanKolassa Hangi verileri kullandığımı açıklamaya çalıştım. Bununla birlikte, soru daha genel olarak ve belirli bir örneğe bağlı değildir.
John Tokka Tacos

Verileri sağlarsanız, bir yanıtı göstermek daha kolay olacaktır.
Stephan Kolassa

Yanıtlar:


6

(x,y)(x,x2,y)

Statik bir ekranda yapılması zor olan üç boyutlu nesnelere bakmanın bedelini ödüyoruz. (Sonsuz bir şekilde dönen görüntüleri can sıkıcı buluyorum ve bu yüzden size yardımcı olabilecek olsa bile, bunlardan hiçbirini etkilemez.) Böylece, bu cevap herkese hitap etmeyebilir. Ancak hayal gücüyle üçüncü boyutu eklemek isteyenler ödüllendirilecek. Dikkatli bir şekilde seçilmiş bazı grafikler aracılığıyla bu çabada size yardımcı olmayı öneriyorum.


Bağımsız değişkenleri görselleştirerek başlayalım . İkinci dereceden regresyon modelinde

(1)yben=β0+β1(xben)+β2(xben2)+hata,

(xben)(xben2)(xben,xben2)xx2.(t,t2):

Şekil 1

(x,x2)

şekil 2

İkinci dereceden regresyon bir uçağa bu noktalara uyar .

(β0,β1,β2),(x,x2,y)(1)-β1(x)-β2(x2)+(1)y-β0,(-β1,-β2,1).β1=-55/8β2=15/2,1,(x,x2) uçak.)

İşte bu noktalara takılmış en küçük kareler düzlemi:

resim açıklamasını buraya girin

y=f(x,x2),(t,t2)

t(t,t2,f(t,t2))

xyx2

Şekil 4

(x,y^)y^x.

Güven bandı bu donatılmış eğrisi için veri noktaları rastgele değişiyordu zaman fit başına gelebilecek neyi göstermektedir. Bakış açısını değiştirmeden, beş takılmış düzlemi (ve onların yükseltilmiş eğrilerini) beş bağımsız yeni veri kümesine (bunlardan sadece biri gösterilmiştir) çizdim:

Resim 5

x1.75x3.

Üç boyutlu arsanın üzerine gelip uçağın diyagonal ekseni boyunca hafifçe aşağı ve yukarı bakarak aynı şeye bakalım . Uçakların nasıl değiştiğini görmenize yardımcı olmak için dikey boyutu da sıkıştırdım.

Resim 6

(t,t2)(x,x2).

(xben,xben2)L(x,x2)(x,x2)(x,x2)L.

Resim 7

Lt(t,t2)Lx1.72.9

(x,y)


Bu analiz kavramsal olarak yüksek dereceli polinom regresyonunun yanı sıra genel olarak çoklu regresyon için de geçerlidir. Üç boyuttan fazlasını gerçekten "göremesek de" doğrusal regresyon matematiği, burada gösterilen tipte iki ve üç boyutlu grafiklerden türetilen sezginin daha yüksek boyutlarda doğru kalmasını garanti eder.


Bu harika cevap için teşekkürler! Karesel regresyonun bir uçağa noktalara uyduğu hiç aklıma gelmedi. Bu geometrik formülasyonlar gerçekten sezgisel ve bana çok yardımcı oldu.
John Tokka Tacos

1
Bu harika bir cevap - en iyi mesajlarınızı derlemeli ve açık kaynak kitap haline getirmeliyiz
Xavier Bourret Sicotte

1
@Xavier Nazik sözleriniz için teşekkür ederim. Böyle bir şey düşünüyordum ve tüm yapıcı önerileri ve eleştirileri memnuniyetle karşılıyorum.
whuber

1

Sezgisel

Çok sezgisel ve kaba anlamda, polinom eğrisini birbirine dikilmiş iki lineer eğri olarak görebilirsiniz (biri yükselen biri azalır). Bu doğrusal eğriler için merkezdeki dar şekli hatırlayabilirsiniz .

Zirvenin solundaki noktalar, zirvenin sağındaki tahminler üzerinde nispeten az etkiye sahiptir ve bunun tersi de geçerlidir.

  • Bu nedenle, zirvenin her iki tarafında iki dar bölge bekleyebilirsiniz (her iki tarafın eğimlerindeki değişikliklerin nispeten az etkisi vardır).

  • Zirvenin etrafındaki bölge nispeten daha belirsizdir, çünkü eğrinin eğimindeki bir değişiklik bu bölgede daha büyük bir etkiye sahiptir. Ölçüm noktalarından hala makul bir şekilde geçen yüksek bir tepe kayması ile birçok eğri çizebilirsiniz.

örnekleme

Aşağıda, bu desenin (bir çift düğüm söyleyebilirsiniz) nasıl ortaya çıkabileceğini daha kolay gösteren bazı farklı veriler içeren bir örnek bulunmaktadır:

çift ​​düğümlü tahmin aralıklarını gösteren

set.seed(1)
x <- c(rep(c(-6, -5, 6, 5), 5))
y <- 0.2*x^2 + rnorm(20, 0, 1)
plot(x, y, 
     ylim=c(-10,30), xlim=c(-10,10),
     pch=21, col=1, bg=1, cex=0.3)

data    = list(y=y,           x=x,                x2=x^2)
newdata = list(y=rep(0,3001), x=seq(-15,15,0.01), x2=seq(-15,15,0.01)^2  )

model <- lm(y~1+x+x2, data=data)
predictions = predict(model, newdata = newdata, interval="predict")
lines(newdata$x, predictions[,1])
lines(newdata$x, predictions[,2], lty=2)
lines(newdata$x, predictions[,3], lty=2)

biçimsel

x

x


1
Bu karakterizasyona ya da sonuçlarından herhangi birine inanmakta zorlanıyorum, çünkü kuadratik regresyonun bu şekilde davranmadığından eminim. Onlar için bir gerekçe sunarak beni ikna edebilir misiniz?
whuber

1
Sanırım puanların konumuna bağlı. Örnekte noktalar zirvenin her iki tarafındadır. O zaman zirvenin konumunu bir çeşit ekstrapolasyon olarak düşünebilirsiniz. Daha sonra daha aşırı bir örnek olay yapacağım. (Ben de regresyon yapılır acaba ama katsayılar hata ilişkili olduğu düşünülmektedir hayal veya aksi takdirde gerçekten bu modeli alamadım)
Sekstus Empirikus

(xben,xben2)xx2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.