Doğrusal bir modelde tahmin sınırları için bir formül elde etme (yani: tahmin aralıkları)


18

Aşağıdaki örneği ele alalım:

set.seed(342)
x1 <- runif(100)
x2 <- runif(100)
y <- x1+x2 + 2*x1*x2 + rnorm(100)
fit <- lm(y~x1*x2)

Bu, OLS regresyonu kullanarak x1 ve x2'ye dayalı bir y modeli oluşturur. Belirli bir x_vec için y'yi tahmin etmek istersek, yalnızca elde ettiğimiz formülü kullanabiliriz summary(fit).

Ancak, ya y'nin alt ve üst tahminlerini tahmin etmek istersek ne olur? (belirli bir güven düzeyi için).

O zaman formülü nasıl oluştururuz?


Yeni Gözlemler üzerine Güven Aralığı bölümünde bu sayfayı yardımcı olabilir.
GaBorgulya

@Tal Üzgünüm, ama "y'nin alt ve üst tahminlerini tahmin et" ile aslında ne demek istediğinizi net değil. Tahmin veya tolerans bantlarıyla bir ilgisi var mı?
chl

@Tal - birkaç sorgu. ".. y x1 ve x2'ye dayalı, bir OLS regresyonu kullanarak." , doğrusal bir model oluşturduğunuz ve OLS kullanarak parametreleri tahmin ettiğiniz anlamına gelir . Haklı mıyım? ve @ chl'nin sorusu - tahmin aralığı için alt ve üst sınırları tahmin etmek ister misiniz?
suncoolsu

@chl, daha açık olmadığım için üzgünüm. Ben zaman% 95 y "gerçek" değerini "yakalayacak" bir aralık verecek iki formül arıyorum. Ortalama olarak CI için tanımları nasıl kullandığımı hissediyorum, muhtemelen kullanmam gereken başka bir terim olduğunda, bunun için üzgünüm ...
Tal Galili

@ suncoolsu - evet ve evet.
Tal Galili

Yanıtlar:


25

Matris aritmetiğine ihtiyacınız olacak. Excel'in bununla nasıl gideceğinden emin değilim. Her neyse, detaylar burada.

Regresyonunuzun olarak yazıldığını varsayalım .y=Xβ+e

Let (aynı biçimde tahmin için kestirim değerlerini ihtiva eden bir sıra vektörü X ). Daha sonra tahmini ile verilmektedir y = X * β = X * ( x ' x ) - 1 x ' , Y ile ilişkili bir varyans σ 2 [ 1 + X * ( X ' X ) - 1 ( X * ) ' ] .XX

y^=Xβ^=X(XX)1XY
σ2[1+X(XX)1(X)].
Daha sonra, bir% 95 tahmin aralığı olarak (normal dağılım hataları varsayılarak) hesaplanabilir y ± 1.96 σ Bunun nedeni hata terimi için belirsizlik dikkate alıreve katsayı tahminlerinde belirsizlik. Ancak, herhangi bir hata yok sayar X *. Dolayısıyla, öngörücülerin gelecekteki değerleri belirsizse, bu ifade kullanılarak hesaplanan tahmin aralığı çok dar olacaktır.
y^±1.96σ^1+X(XX)1(X).
eX

1
+1, mükemmel cevap. Yine de şunu belirtmeliyim ki, regresyon modeli her zaman koşullu beklentiyi tahmin eder, bu yüzden regresörleri kadar iyidir. Bu yüzden son yorum çok iyi olmasına rağmen, kesinlikle gerekli değildir, çünkü regresyon modeli oluşturursanız, regresörlere güvenmelisiniz.
mpiktas

y^=Xβ+X(XX)1Xevary^=varX(XX)1Xe=σ2X(XX)1(X)

y^

N×N

X

7

Farklı tahmin aralıklarından sonra şans eseri misiniz? predict.lmManuel sayfa vardır

 ## S3 method for class 'lm'
 predict(object, newdata, se.fit = FALSE, scale = NULL, df = Inf, 
         interval = c("none", "confidence", "prediction"),
         level = 0.95, type = c("response", "terms"),
         terms = NULL, na.action = na.pass,
         pred.var = res.var/weights, weights = 1, ...)

ve

'Aralıkların' ayarlanması, bazen dar veya geniş aralıklar olarak anılan, belirtilen 'düzeydeki güven veya tahmin (tolerans) aralıklarının hesaplanmasını belirtir.

Aklında olan şey bu muydu?


Merhaba Dirk, gerçekten bulmak istediğim şey budur, ancak üst ve alt bağların bir formül formunda olmasını istiyorum (böylece daha sonra düşük bir istatistiksel yazılım formunda, örneğin Excel'de ...)
Tal Galili

ps: Şimdi sorumun başlığında size predict.lm aralık parametresi (ki ben değilim) hakkında soru sorduğumu düşünebilecek bir düzenleme olduğunu görüyorum :)
Tal Galili

8
Burada terminolojiyi kötüye kullanıyorsunuz. Excel istatistiksel bir yazılım değildir.
Dirk Eddelbuettel

1
Haklısın, teklifim, "elektronik tablo uygulaması" ne dersiniz?
Tal Galili

3
Bununla yaşayabilirim; şeytan adıyla ;-)
Dirk Eddelbuettel

6

@Tal: Kutner ve arkadaşlarına doğrusal modeller için muhteşem bir kaynak önerebilirim .

E(Y|Xvec)

E(Y|Xvec)Y^ ±αY^Y^Y^σ2nXvecX¯)2σ2(XiX¯)2


1
(+1) ayrım yapmak için. Ancak, OP'nin (2) değil (1) 'i istediğine inanıyorum (ve sorunun başlığını buna göre düzenledim). Ayrıca formülünüzün gerilemenin yalnızca bir değişkene bağlı olduğunu varsaydığını unutmayın.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.