Doğrusal regresyonda güven bantlarının şeklini ve hesaplamasını anlama


33

Bir OLS doğrusal regresyonu ile ilişkili kavisli şekilli güven bantlarının kökenini ve regresyon parametrelerinin (eğim ve kesişme) güven aralıklarıyla nasıl ilişkili olduğunu anlamaya çalışıyorum, örneğin (R kullanarak):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

görüntü tanımını buraya girin

Grubun,% 2,5 kesmeyle ve% 97,5 eğim ile hesaplanan çizgilerin sınırları ile,% 97,5 kesmeyle ve% 2,5 eğim (oldukça olmasa da) ile ilişkili olduğu anlaşılmaktadır:

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

görüntü tanımını buraya girin

Anlamadığım iki şey var:

  1. % 2,5 eğim ve% 2,5 kesmenin yanı sıra% 97,5 eğim ve% 97,5 kesmenin birleşimi ne durumda? Bunlar, yukarıda çizilen bandın dışında açıkça çizgiler oluşturur. Belki bir güven aralığı anlamını anlamıyorum, ancak vakaların% 95'inde tahminlerim güven aralığı içindeyse, bunlar olası bir sonuç gibi görünüyor mu?
  2. Üst ve alt sınır arasındaki minimum mesafeyi belirleyen nedir (yani, iki çizginin kesiştiği noktaya yakın)?

Sanırım her iki soru da ortaya çıkıyor çünkü bu grupların gerçekte nasıl hesaplandıklarını bilmiyorum / anlamıyorum.

Regresyon parametrelerinin güven aralıklarını kullanarak (predict () ya da benzeri bir işlevi, yani elle) güvenerek kullanarak üst ve alt limitleri nasıl hesaplayabilirim? R'deki predict.lm fonksiyonunu deşifre etmeye çalıştım, fakat kodlama benim de ötesinde. İstatistik literatürüne veya istatistiklere yeni başlayanlar için uygun açıklamalara yönelik işaretçileri takdir ediyorum.

Teşekkürler.


4
Aşağıda iki iyi cevabınız var. Daha fazla bilgi edinmek istiyorsanız, cevabımı burada okumanıza yardımcı olabilir: Tahmin aralıkları ile ilgili olan doğrusal regresyon tahmini aralığı, ancak fikir çok benzer.
gung - Reinstate Monica

2
Bu yazıda verilen ayrıntılı sezgisel bir açıklama var: Doğrusal regresyonda öngörülen değerler için güven aralığı şekli
Glen_b -Reinstate Monica

Yararlı cevaplar ve mükemmel linkler için TA.
David,

Yanıtlar:


19

XsY^X ) (hesaplanan el ! Yech ) kullanılarak:

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X Çift Yech! ) kullanılarak:

sY|X=i=1n(YiY^)2n2 .

Y^±tν=n-2,α/2sY^ .

YX

β^α^


1
Bu formüllerin nereden geldiğini açıklayan bir ders kitabı var mı?
Michael Goerz

1
@MichaelGoerz Herhangi bir giriş istatistiği, biyoistatistik, ekonometri vb. Sıradan en küçük kareleri içeren doğrusal kitapların regresyonunu içermelidir.
Alexis

Wasserman var - Tüm İstatistikler, James ve diğerleri - İstatistiksel Öğrenmeye Giriş ve Hastie ve diğerleri. - İstatistiksel Öğrenmenin Öğeleri. Hiçbirinde lineer regresyon güven bandının denklemlerini bulamadım. Bunlardan herhangi biri için bir bölüm / eq numaranız var mı?
Michael Goerz

2
Bahsettiğiniz kitapların hiçbiri Alexis'in tartıştığı türden kitaplar değil. Doğru hatırlıyorsam Fox'un Applied Regression kitabında yazıyor.
Glen_b

1
@MichaelGoerz Pagano, M. ve Gauvreau, K. (2000) 'nin yaptığı gibi. Biyoistatistik İlkeleri . Duxbury Press, Pacific Grove, CA, 2. baskı ve Glantz, SA (2011). biyoistatistiğin astarı . McGraw-Hill Medical, New York, NY, 7. baskı, gerilemeye özgü metinler olmasa da.
Alexis

16

Güzel soru. Bu kavramları anlamak önemlidir ve bunlar basit değildir.

Regresyon çizgisi etrafında gördüğünüz% 95 güven bantları, gerçek değer için% 95 güven aralıklarıyla üretilir. y¯her bir x için o aralıkta yer alır. Yani dikey bir dilim alın, x = 50 de. Diyelim ki, regresyon bize şunu söyledi:y¯ x = 50'de yaklaşık 25'tir. Güven aralığı hesaplaması, bize% 95'inin gerçek değerine güvendiğinden emin olduğumuzu söyler. y¯ Bu noktada grafiğin gri alanı içindedir (yukarıdaki grafik için yaklaşık 15 ve 35).

Tüm güven aralıklarını birleştirdiğimizde, her olası x için, çıktıda gördüğünüz gri bantları verir.

Bunun fonksiyonel olarak anlamı, gerçek regresyon çizgisinin o gri bölgede bir yerde olduğundan% 95 emin olduğumuzdur.

Güven bantları her bir nokta için% 95 güven aralıkları kullanılarak hesaplandığından, müdahale için% 95 CI ile çok yakından ilgilidir. Aslında, x = 0'da gri bölgenin kenarları tam olarak% 95 CI ile çakışacak, çünkü güven bantlarını bu şekilde oluşturduk. Bu yüzden yukarıda eklediğiniz satırlar gri bandın kenarına sola çarpıyor.

Ancak, eğim biraz farklıdır. Yukarıda gördüğünüz gibi limitlere katkıda bulunur, ancak eğri ve kesişme doğrusal bir regresyonda ayrılmaz. Öyleyse, gerçekten "peki kesişme CI aralığının minimumundaysa ve eğim de en düşük seviyede ise" diyemezsiniz. Bu çizgi, birçok x için% 95 CI'lerin dışında kalan puanlar üretecektir. Bu, gerçek regresyon çizgimiz olmadığı için% 95 güvende olduğumuz anlamına geliyor.

İkinci sorunuzu ele almak için, regresyon hesaplamaları, örneğimizin ortasındaki x değerleri için daha kesindir. Aslında, en dar% 95 CI da görünecekx¯. Bunun nedeni, Alexis'in cevabındaki formülde gördüğünüz gibi,sy^x, (x-x¯)kesir payındadır. Ne zamanx=x¯ bu değer sıfırdır, bu nedenle standart hata daha küçüktür.

Burada, bunlardan bazılarını görselleştirmenize yardımcı olabilecek iyi bir powerpoint var: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf


2
Sanırım tamir ettim - yhatları ybarlarla değiştirdi. Bu daha doğru mu? Ben hep seni mahvettim.
Duncan,

Ta. Bana açık olmayan bir şey, aşağıdaki iki ifadeyi nasıl tutarlı hale getireceğimizdir: "İşlevsel olarak bu, gerçek regresyon çizgisinin o gri bölgede bir yere yattığından% 95 emin olduğumuz anlamına gelir." vs "[...] kesişme ve eğim ile ilgili güven aralıkları henüz başka miktarlar." İlk ifade doğruysa, kesişme noktası ve eğim CI'leri ile yukarıda çizilen bant arasında bazı (matematiksel?) Bir ilişki olmalıdır? Sanırım bu sorumun bir kısmı ile ilgili: Yukarıdaki grubu eğim ve engellemenin CI'sini kullanarak nasıl (eğer mümkünse) hesaplayabilirim?
David,

1
Bantları sadece eğim ve engelleme CI'lerini kullanarak hesaplayamazsınız, çünkü bantlar her x'deki CI'leri hesaplayarak üretilir. Gruplar gittikçe sertleştikçex¯eğim ve engelleme için CI'lerin aşırı değerlerinin ürettiği çizgilerden sapacaktır.
Duncan,

Güzel anlaşılabilir bir yazı ve güzel bir bağlantı! +1
theforestecolog
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.