Doğrusal regresyon tahmin aralığı


24

Veri noktalarımın en iyi doğrusal yaklaşımı (en küçük kareler kullanılarak) çizgisiyse , yaklaşım hatasını nasıl hesaplayabilirim? Gözlemler ve öngörüler arasındaki farkların standart sapmasını hesaplarsam, , daha sonra gerçek (ama gözlenmeyen) değerin aralığının ( ) normal dağılım varsayılarak ~% 68 olasılıkla?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + by=mx+bei=real(xi)(mxi+b)yr=real(x0)[ypσ,yp+σ]yp=mx0+b

Netleşmeştirmek:

fonksiyonuyla ilgili bazı noktaları değerlendirerek gözlemler yaptım . Bu gözlemleri çizgisine . İçin ben gözlemlemek olmadığını, ne kadar büyük kutu bilmek istiyorum olmak. Yukarıdaki yöntemi kullanarak, prob ile olduğunu söylemek doğru mu ? ~% 68?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) [ l ( x 0 ) - σ , l ( x 0 ) + σ ]f(x)xil(x)=mx+bx0f(x0)l(x0)f(x0)[l(x0)σ,l(x0)+σ]


1
Bence tahmin aralıklarını soruyorsun. Ancak, " " yerine " " kullandığınızı . Bu bir yazım hatası mı? Biz yok tahmin s. y ixiyix
gung - Reinstate Monica

@gung: kullanmak örneğin, saat için anlamında olabildikleri, ve o zaman bir değişkenin değeri, yani I bir gözlem yapılan vasıtasıyla süre içinde . Uydurma işlevi tahminlerinin y'nin gerçek değerlerinden ne kadar uzakta olabileceğini bilmek istiyorum. bu mantıklı mı? işlevi , "doğru" değerini döndürür ve veri noktalarım . y y = f ( x ), y x r e bir l ( x i ) y x i ( x i , r, e bir l ( x i ) )xyy=f(x)yxreal(xi)yxi(xi,real(xi))
bmx

1
Bu tamamen makul görünüyor. kısımlar, örneğin, " ", genellikle " " olarak reg modelindeki hataları / kalıntıları düşünüyoruz. . Artıkların SD'si , tahmin aralıklarının hesaplanmasında rol oynar. Bu benim için garip olan " "; Yazım hatası mı merak ediyorum, yoksa tanımadığım bir şey mi soruyorsun. e i = y i - ( m x i + b )ei=real(xi)(mxi+b)ei=yi(mxi+b)xi
gung - Reinstate Monica

Sanırım görüyorum; Düzenlemenizi özledim. Bu, sistemin mükemmel bir şekilde deterministik olduğunu ve gerçek temel fonksiyona erişiminiz varsa, her zaman kusursuz olarak tahmin . Normalde reg modelleri hakkında düşünme tarzımız bu değil. yi
gung - Reinstate Monica

4
bmx, Sorunuz hakkında net bir fikriniz ve bazı konular hakkında iyi bir farkındalığınız varmış gibi görünüyor. Yakından ilgili üç konuyu incelemek ilginizi çekebilir. stats.stackexchange.com/questions/17773 teknik olmayan terimlerle tahmin aralıklarını açıklar; stats.stackexchange.com/questions/26702 daha matematiksel bir açıklama verir; ve istatistik.stackexchange.com/questions/9131 adreslerinde Rob Hyndman, aradığınız formülü sağlar. Bunlar sorunuzu tam olarak cevaplamazsa, en azından açıklığa kavuşturmanız için size standart bir not ve kelime verebilir.
whuber

Yanıtlar:


30

@whuber size üç iyi cevaba işaret etti, ama belki de hala değerli bir şeyler yazabilirim. Anladığım kadarıyla, açık sorunuz:

Benim oturtulan model göz önüne y^i=m^xi+b^ (bildirim I 'şapkalar' ilave edildi) , ve benim artıklar normalde dağıtılmış varsayımıyla henüz gibi bir tahmin edebilirsiniz, gözlenmeyen yanıtı, y , n , e ağırlık bilinen bir belirleyici değeri ile x , n , e w , aralık içinde olacaktır ( y - σ e , y + σN(0,σ^e2)ynewxnew olasılıkla% 68?(y^σe,y^+σe)

Sezgisel olarak, cevap 'evet' olmalı gibi görünüyor, ancak doğru cevap belki de olabilir . Parametreler (yani, & σ ) bilindiğinde ve hatasız olduğunda durum böyle olacaktır . Bu parametreleri tahmin ettiğinizden beri, belirsizliklerini dikkate almamız gerekir. m,b,σ

İlk önce artıklarınızın standart sapmasını düşünelim. Bu verilerinizden tahmin edildiği için, tahminde bazı hatalar olabilir. Sonuç olarak, tahmin aralığınızı oluşturmak için kullanmanız gereken dağılım normal değil olmalıdır . Bununla birlikte, t hızlı bir şekilde normale yaklaştığından, bunun pratikte bir sorun olma olasılığı daha düşüktür. tdf errort

Bu nedenle, sadece kullanabilir y yeni ± t ( 1 - α / 2 , df hata ) ler , yerine y yeni ± z ( 1 - α / 2 ) s , ve neşeli şekilde gitmek? Ne yazık ki hayır. Daha büyük sorun, tahminler nedeniyle belirsizlik bu konumdaki tepki koşullu ortalama senin tahmini hakkında belirsizlik olmasıdır m & b . Böylece,y^new±t(1α/2, df error)sy^new±z(1α/2)sm^b^Tahminlerinizde standart sapması sadece daha dahil etmek gerekiyor serror . Çünkü farklılıklar eklemek , tahminler tahmini varyans olacaktır: Uyarı bu " X " sıfır belirli bir değer temsil eden subscripted gözlem ve " s 2 " nin buna uygun olarak abone olduğunu. Yani, tahmin aralığınız x boyunca yeni gözlemin yerine bağlı olarak belirlenir.

spredictions(new)2=serror2+Var(m^xnew+b^)
xs2xeksen. Tahminlerinizin standart sapması, aşağıdaki formüle göre daha uygun bir şekilde tahmin edilebilir: gibi ilginç bir yan not, bu denklemden tahmin aralıklarla hakkında birkaç gerçekleri çıkarabiliriz. Birincisi, tahmin aralıkları biz (daha az belirsizlik var, çünkü bu öngörü modeli inşa ettiğinde biz daha fazla veri dar olacakm&b). İkincisi,modelinizi geliştirmek için kullandığınızxdeğerlerininortalarında yapılırsa tahminler enkesindir, çünkü üçüncü terim için sayı0olacaktır. Bunun nedeni, normal şartlar altında,x'inortalama eğiminde tahmin edilen eğim konusunda bir belirsizlik olmamasıdır.
spredictions(new)=serror2(1+1N+(xnewx¯)2(xix¯)2)
m^b^x0x, sadece regresyon çizgisinin gerçek dikey konumu ile ilgili bazı belirsizlikler. Bu nedenle, tahmin modellerini oluşturmak için öğrenilecek bazı dersler şunlardır: daha fazla verinin, “önem” bulmakla değil, gelecekteki tahminlerin kesinliğini arttırmakla faydalı olması; ve veri toplama çabalarınızı gelecekte tahminlerde bulunmanız gereken aralığa odaklamanız gerekir (bu payı en aza indirmek için), ancak gözlemleri bu merkezden olabildiğince geniş bir şekilde yaymak (bu paydayı maksimize etmek için).

Bu şekilde doğru değeri hesapladıktan sonra , yukarıda belirtildiği gibi uygun dağılımıyla kullanabiliriz . t

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.