Tahmin aralıklarıyla olasılıksal açıklamalar yapabilir miyiz?


12

Güven aralıklarının ve tahmin aralıklarının yorumlanması ile ilgili sitede birçok mükemmel tartışmayı okudum, ancak bir kavram hala biraz kafa karıştırıcı:

OLS çerçevesini düşünün ve uygun modelini aldık . Bize bir verildi ve yanıtını tahmin etmemiz istendi. değerini hesaplıyoruz ve bir bonus olarak, tahminimiz etrafında% 95 tahmin aralığı sağlıyoruz, a la Doğrusal bir modelde tahmin sınırları için bir formül elde etmek . Bu tahmin aralığına PI diyelim. x*X*T βy^=Xβ^xxTβ^

Şimdi, aşağıdakilerden hangisi (veya hiçbiri) PI'nin doğru yorumu değildir?

  1. İçin , özellikle, % 95 olasılık ile PI kaynaklanıyor olabilir. y ( x )xy(x)
  2. Biz çok sayıda verilen ediyorsanız s, hesaplama Pl'lere bu prosedür gerçek yanıtları zamanlarının% 95'ini kapsayacaktır.x

@ Gung'un Doğrusal regresyon tahmin aralığındaki ifadelerinden , birincisi doğru gibi görünüyor (çok iyi yorumlayabilmeme rağmen.) Yorum 1 bana mantıksız görünüyor (sıkça analizden Bayesian sonuçlar çıkardığımız için), ancak doğruysa eğer biz çünkü, öyle tahmin bir gerçekleşmesini rastgele değişken vs. tahmin bir parametre ?

(Düzenle) Bonus soru: Diyelim ki gerçek nedir, yani veri üreten süreç, o zaman sadece baktığımız için herhangi bir tahminle ilgili olasılıklar hakkında konuşabilir miyiz ?ϵβϵ

Bu konuda son girişimim: (kavramsal olarak çok gevşek kullanarak) bir tahmin aralığını iki parçaya ayırabiliriz: (A) tahmin edilen ortalama yanıt etrafında bir güven aralığı ve (B) sadece kantil olan bir aralık koleksiyonu hata teriminin aralıkları. (B) gerçek öngörülen ortalamayı bilmeye bağlı olarak olasılıksal açıklamalar yapabiliriz, ancak bir bütün olarak, tahmin aralıklarını yalnızca öngörülen değerler etrafında sık CI'ler olarak ele alabiliriz. Bu biraz doğru mu?


Stats.stackexchange.com/a/26704 adresinde yazdığım cevap, (2) gibi bir şeyin (çok sayıda yasaya göre) durum olduğunu, ancak kesinlikle (1) olmadığını ima eder.
whuber

Yanıtlar:


5

Birincisi, olasılık kelimesinin kullanımında, frekansçılar rastgele parçanın henüz gerçekleşmediği bir şeyi tahmin ederken olasılık kelimesini kullanmada bir sorun yaşamamaktadır. Bir güven aralığı için olasılık kelimesini sevmiyoruz çünkü gerçek parametre değişmiyor (bilinmeyen bir değer olsa da sabit olduğunu varsayıyoruz) ve aralık sabittir çünkü zaten topladığımız verilere dayanmaktadır. Örneğin, verilerimiz yetişkin bir erkek insanın rastgele bir örneğinden geliyorsa ve x boyları ve y ağırlıklarıysa ve genel regresyon modeline uyuyorsak, güven aralıkları hakkında konuşurken olasılık kullanmayız. Ancak, belirli bir aralıkta ağırlığı olan 65 inç uzunluğundaki tüm erkeklerden rastgele seçilen 65 inç boyunda bir erkeğin olasılığı hakkında konuşmak istersem,

Bu yüzden bonus sorunun cevabının "Evet" olduğunu söyleyebilirim. Yeterince bilgi biliyorsak, ay değerini bir aralık içinde görme olasılığını hesaplayabiliriz (veya istenen olasılıkla bir aralık bulabiliriz).

"1." etiketli ifadeniz için Aralık veya olasılık hakkında konuşurken "yaklaşık" gibi bir kelime kullanırsanız sorun yok diyebilirim. Bonus soruda bahsettiğiniz gibi, belirsizliği tahminin merkezi ile ilgili bir parçaya ve gerçek ortalamanın etrafındaki rastgele bir parçaya ayırabiliriz. Bunları tüm belirsizliğimizi kapsayacak şekilde birleştirdiğimizde (ve model / normale sahip olduğumuzu varsayarsak) çok geniş olma eğiliminde olacak (ama çok dar da olsa) bir aralığımız var, bu yüzden rastgele seçilen yeni bir nokta olasılığı tahmin aralığına düşmek tam olarak% 95 olmayacaktır. Bunu simülasyonla görebilirsiniz. Bilinen tüm parametreleri içeren bilinen bir regresyon modeliyle başlayın. Bu ilişkiden (birçok x değerinde) bir örnek seçin, regresyona uyun, ve tahmin aralıklarını hesaplar. Şimdi tekrar gerçek modelden çok sayıda yeni veri noktası oluşturun ve bunları tahmin aralıklarıyla karşılaştırın. Aşağıdaki R kodu kullanarak birkaç kez yaptım:

x <- 1:25
y <- 5 + 3*x + rnorm(25, 0, 5)
plot(x,y)

fit <- lm(y~x)
tmp <- predict(fit, data.frame(x=1:25), interval='prediction')

sapply( 1:25, function(x){ 
    y <- rnorm(10000, 5+3*x, 5)
    mean( tmp[x,2] <= y & y <= tmp[x,3] )
})

Yukarıdaki kodu birkaç kez çalıştırdım (yaklaşık 10, ancak dikkatli saymadım) ve çoğu zaman aralıklarda düşen yeni değerlerin oranı% 96 ila% 98 aralığında değişiyordu. Tahmin edilen standart sapmanın çok düşük olduğu ve oranların% 93 ila% 94 aralığında olduğu, ancak geri kalanın% 95'in üzerinde olduğu bir vakam vardı. Bu nedenle, "yaklaşık% 95" değerindeki değişiklikle 1. ifadenizden memnun olurum (tüm varsayımların doğru olduğunu veya yaklaşık olarak ele alınacak kadar yakın olduğunu varsayarsak).

Benzer şekilde, ifade 2'nin "yaklaşık" veya benzeri bir şeye ihtiyacı vardır, çünkü belirsizliğimizi karşılamak için ortalama% 95'ten fazla yakalarız.


0

İkincisi daha iyi. Birincisi, başka hangi bilgilerin bilindiğine bağlıdır.

Rastgele bir örnek kullanarak, "aralıkların% 95'inin (% 95 güvende) [insert değişkeninin] gerçek ortalamasını içereceği doğrudur.

Öte yandan, eğer bir sonuç açıkça sezgisel ise, iddia edemeyiz (1).

Örneğin, "% 95 güvendeki önem testim boy ve kilonun negatif korelasyon gösterdiğini gösteriyor ". Eh tabii ki yanlış var ve biz bu olamaz bir "Nasıl doğru olduğunu% 95 olasılık" olduğunu söylüyorlar. Aslında, ön bilgi dikkate alındığında, bunun doğru olma olasılığı çok düşüktür. Bununla birlikte, "bu tür testlerin% 95'inin doğru sonuç vereceğini " söylemek geçerlidir .


1
Bu cevap, tahmin aralıklarından ziyade güven aralıklarını tartışıyor gibi görünüyor.
whuber

@whuber Aynı ilke geçerlidir. Temelde belirli bir değişken ("öngörülen" değişken) için güven aralıkları ile uğraşıyoruz.

2
Sabit bir değer (bir parametre gibi) ile rastgele bir değişkenin değeri arasında önemli bir fark vardır. Dahası, mevcut sorunun kalbi bu ayrımı kazanmaktadır: Bu ("gelecek") rastgele sonucun olasılığı hakkında ne söylenebilir? Bu nedenle, bu soruyu sadece güvenin anlamı ile ilgili olarak ele almak yetersiz ve muhtemelen yanıltıcı görünmektedir.
whuber

@whuber Yazıdaki (2) ifadesi hala (1) ifadesini ima etmemektedir. Benim örnekte olduğu gibi, bariz sezgi / arka plan bilgisine karşı gitmiş bir öngörü olurdu değil gelecekteki sonuçları PI'daki düşme% 95 şansı ima. Sürecin, zamanın% 95'i, gelecekteki sonucu içeren PI'leri vereceği doğrudur. Ancak bazen bunun ne zaman meydana geldiğini veya gerçekleşmediğini tespit etmek mümkündür.

Haklısın, ama eğer yorumunu doğru okuyorsam bunun bir noktayı kaçırdığından şüpheleniyorum. Mesele, (tasarım gereği) bir PI'nin gelecekteki değeri kapsamak için sadece% 95 şansı olması veya ek verilerin (veya sezginin) daha fazla bilgi verebileceği gerçeği değildir. Önümüzdeki konu, bir PI'nin gelecekteki değer için (regresyon değerlerine dayanarak) koşullu bir olasılık açısından yorumlanıp yorumlanamayacağı ile ilgilidir. Bu gerçekten de Bayes PI'nin OP'nin belirttiği gibi yorumlanmasıdır , ancak sık görülen bir PI için geçersizdir.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.