Güven aralıkları ve tahmin aralıkları arasındaki fark


80

Doğrusal regresyonda bir tahmin aralığı için, aralığı oluşturmak için hala kullanın. Bunu, bir güven aralığı oluşturmak için de kullanabilirsiniz . İkisi arasındaki fark nedir?E^[Y|x]=β0^+β^1xE[Y|x0]


7
E^[Y|x]=β0^+β^1x "aralığı" oluşturmaz.
Glen_b

Yukarıdaki cevapların hiçbirinde iki yöntem arasındaki farklılığın bir nedenini görmüyorum. Regresyon sonuçları tipik olarak parametrik Öğrenci dağılım parametrelerine dayanarak tahmin edilir ve tipik olarak gerileme, özellikle de veri regresyon modellerine uyum sağlaması nedeniyle, öğrencilere değil, örneğin eğriltilmiş fakat özellikle ağır kuyruklu (her zaman değilse) parametrik veri dağılım ölçütleri, karşılık gelen beklenen ölçülen niceliklerden daha büyük. Genel bir kural yararlı buldum: Aykırı kalanlar, uzun kuyruklar ve u ile kalanlar görürsem
Carl

Yanıtlar:


75

Sorunuz tam olarak doğru değil. Bir güven aralığı , sizin dediğiniz gibi için bir aralık verir . Bir tahmin aralığı kendisi için bir aralık verir . Doğal olarak, bizim en iyi tahmin olduğunu aralıklarla her ikisi de aynı değerde, etrafında olacak, bu yüzden .E[yx]yyE[yx]xβ^

@Greg söylediği gibi standart hatalar farklı olacak --- biz beklenen değerini tahmin daha doğrusu biz tahmin daha kendisini. Tahmin gerçek hata teriminin gelen varyansı dahil gerektirir.E[yx]yy

Farkı göstermek için, katsayılarımız hakkında mükemmel tahminler alabileceğimizi düşünün . O zaman, tahmininiz mükemmel olurdu. Ama yine de emin olmazdım incelememiz gereken gerçek bir hata terimi olmadığından kendisiydi. Güven "aralığımız" sadece bir nokta olacaktır, çünkü tam olarak doğru olduğunu tahmin ediyoruz;βE[yx]yE[yx]

Dolayısıyla, bir tahmin aralığı bir güven aralığından daha geniş olacaktır.


40

Tahmin aralığı ile güven aralığı arasındaki fark standart hatadır.

Ortalamadaki güven aralığı için standart hata, örneklemeden kaynaklanan belirsizliği hesaba katar. Örneğinizden hesapladığınız satır, tüm popülasyonunuz olsaydı hesaplanacak satırdan farklı olacaktır, standart hata bu belirsizliği hesaba katar.

Bireysel bir gözlemde bir tahmin aralığı için standart hata, yukarıdaki gibi örneklemeden kaynaklanan belirsizliği hesaba katar, ancak aynı zamanda bireylerin öngörülen ortalama etrafındaki değişkenliğini de dikkate alır. Tahmin aralığı için standart hata, güven aralığından daha geniş olacaktır ve bu nedenle tahmin aralığı, güven aralığından daha geniş olacaktır.


39

Aşağıdaki açıklamayı yararlı buldum:

Güven aralıkları size ortalamayı ne kadar iyi belirlediğinizi gösterir. Verilerin gerçekten bir Gauss dağılımından rastgele örneklendiğini varsayın. Bunu birçok kez yaparsanız ve her örneklemden elde edilen ortalamanın güven aralığını hesaplarsanız, bu aralıkların yaklaşık% 95'inin nüfus ortalamasının gerçek değerini içermesini beklersiniz. Kilit nokta, güven aralığının size gerçek popülasyon parametresinin olası yerini bildirmesidir.

Tahmin aralıkları , örneklenen bir sonraki veri noktasını nerede görmeyi bekleyebileceğinizi söyler. Verilerin gerçekten bir Gauss dağılımından rastgele örneklendiğini varsayın. Bir veri örneği toplayın ve bir tahmin aralığı hesaplayın. Daha sonra popülasyondan bir değer daha alın. Bunu birçok kez yaparsanız, bir sonraki değerin numunelerin% 95'inde bu tahmin aralığı içinde kalmasını beklersiniz. Temel nokta, tahmin aralığının size popülasyonun belirlenmesindeki belirsizlikten değil, değerlerin dağılımı hakkında bilgi vermesidir. anlamına gelmek.

Tahmin aralıkları, hem popülasyon ortalamasının değerini hem de veri dağılımını bilme konusundaki belirsizliği hesaba katmalıdır. Dolayısıyla bir tahmin aralığı her zaman bir güven aralığından daha geniştir.

Kaynak: http://www.graphpad.com/support/faqid/1506/


Buradaki "veri yayılımı" ile kastedilen nedir?
tel

2
@tel: Açıkçası varyans
vonjd

36

Biri gelecekteki bir gözlemin tahmini, diğeri ise öngörülen ortalama bir cevap. Farkı ve nereden geldiğini umutla açıklamak ve bu farkın güven için tahmin etmekten daha geniş aralıklarla kendini nasıl gösterdiğini açıklamak için daha ayrıntılı bir cevap vereceğim.

Bu örnek, güven ve tahmin aralıkları arasındaki farkı gösterebilir: Diyelim ki, yatak odalarının sayısına, büyüklüğüne, vb. Göre evlerin fiyatını öngören bir regresyon modelimiz var. Belirli bir için yapabileceğimiz iki tür tahmin vardır :x0

  1. Piyasaya çıkan belirli bir yeni evin fiyatını özellikleriyle tahmin edebiliriz ( "bu ev için öngörülen fiyat nedir?" ). Gerçek fiyatı . Yana , tahmin edilen değeri olacaktır Bu öngörü varyans değerlendirirken, yaklaşık belirsizliğimizi dahil etmek gerekir Tahminimizle ilgili belirsizliğimizin yanı sıra (tahmininizin hatası) ve (tahmininizin hatası) varyansını da içermesi gerekir . Bu genellikle gelecekteki bir değerin tahmini olarak adlandırılır .x0x0

    y=x0Tβ+ϵ
    E(ϵ)=0
    y^=x0Tβ^
    β^ϵ
  2. Biz de bir evin ortalama fiyatı tahmin edebilirsiniz özellikleri ( "hangi özelliklere sahip bir ev için ortalama fiyat olacağını ?" ). Nokta tahmini hala , ancak şimdi yalnızca daki varyansın hesaba katılması gerekir. Bu genellikle ortalama cevabın tahmini olarak adlandırılır .x 0 y = x T 0 p px0x0

    y^=x0Tβ^
    β^

Çoğu zaman, gerçekten istediğimiz ilk şeydir. olduğunu biliyoruz.

var(x0Tβ^)=x0T(XTX)1x0σ2

Bu, ortalama cevabımızın varyansıdır (durum 2). Ancak, gelecekteki bir gözlemin öngörüsü için (vaka 1), ; varyansı var ve bağımsız olduğu varsayılır . Bazı basit cebirleri kullanarak, bu aşağıdaki güven aralıklarıyla sonuçlanır:s σ 2 βx0Tβ^+ϵϵσ2β^

  1. , için bir sonraki cevap için :y 0 ± t ( α / 2 ) n - p σx0

    y^0±tnp(α/2)σ^x0T(XTX)1x0+1
  2. Verilen ortalama yanıt için CI, :y 0 ± t ( α / 2 ) n - p σx0

    y^0±tnp(α/2)σ^x0T(XTX)1x0

Burada , quantile konumunda serbestlik derecesine sahip bir t-istatistiğidir . , n - p α / 2tnpα/2npα/2

Umarım bu, tahmin aralığının neden her zaman daha geniş olduğunu ve iki aralığın altında yatan farkın ne olduğunu biraz daha açık hale getirir. Bu örnek Faraway, R, Sec. 4.1.


2
Net ve düşünceli bir yanıtla önemli ölçüde geliştirilmiş eski bir iplik görmek güzel. Sitemize hoşgeldiniz!
whuber

Olmaması gerekenler ... x0 + 1 / n +1 (tahmin aralığı (1) için) ve ... x0 + 1 / n (güven aralığı için (2) _ www2.stat.duke.edu /~tjl13/s101/slides/unit6lec3H.pdf real-statistics.com/regression/…
user48956

12

Kısa cevap:

Bir tahmin aralığı , henüz gözlemlenmemiş rastgele bir değişkenle ilişkili bir aralıktır (tahmin).

Bir güven aralığı bir parametre ile ilgili bir aralık ve bir frequentist kavramdır.

Burada tam cevabı kontrol et . R'deki tahmin paketinin yaratıcısı Rob Hyndman'dan.


3

Bu cevap önceki cevapları tam olarak anlayamayan okuyucular içindir. Belirli bir örneği tartışalım. İnsanların ağırlığını boylarından, cinsiyetinden (erkek, kadın) ve diyetten (standart, düşük karbonhidrat, vejeteryan) tahmin etmeye çalıştığınızı varsayalım. Şu anda, Dünya'da 8 milyardan fazla insan var. Elbette, aynı yüksekliğe ve diğer iki parametreye ancak farklı ağırlıklara sahip binlerce insan bulabilirsiniz. Ağırlıkları çılgınca değişir çünkü bazıları obeziteye sahiptir, bazıları ise açlıktan acı çekebilir. Bu insanların çoğu ortada bir yerlerde olacak.

Görevlerden biri, her üç açıklayıcı değişkenin aynı değerlerine sahip olan tüm insanların ortalama ağırlığını tahmin etmektir. Burada güven aralığını kullanıyoruz. Başka bir problem, belirli bir kişinin ağırlığını tahmin etmektir. Ve biz o bireyin yaşam koşullarını bilmiyoruz. Burada tahmin aralığı kullanılmalıdır. Aynı noktada ortalanır, ancak güven aralığından çok daha geniş olması gerekir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.