Polinom regresyonundan güven bandını anlamak


14

Aşağıdaki grafikte gördüğüm sonucu anlamaya çalışıyorum. Genellikle, Excel'i kullanmaya ve doğrusal regresyon çizgisine sahip olmaya eğilimliyim, ancak aşağıdaki durumda R kullanıyorum ve komutla polinom regresyonu alıyorum:

ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth()

Yani sorularım bununla sınırlı:

  1. Mavi regresyon çizgisi etrafındaki gri alan (ok # 1) nedir? Bu, polinom regresyonunun standart sapması mı?

  2. Gri alanın dışındaki her şeyin (ok # 2) 'aykırı' olduğunu ve gri alanın (ok # 3) içine düşenin standart sapma içinde olduğunu söyleyebilir miyim?

resim açıklamasını buraya girin

Yanıtlar:


14

Gri bant, regresyon çizgisi için bir güven bandıdır. Ggplot2'nin 1 SE güven bandı mı yoksa% 95 güven bandı mı olduğunu bilmek için yeterince tanıdık değilim, ancak eski olduğuna inanıyorum ( Düzenleme: Açıkçası% 95 CI ). Güven bandı, regresyon çizginiz hakkındaki belirsizliğin bir temsilini sağlar. Bir anlamda, gerçek regresyon çizgisinin o bandın üst kısmı kadar yüksek, alt kısmı kadar düşük veya bant içinde farklı şekilde kıpırdadığını düşünebilirsiniz. (Bu açıklamanın sezgisel olması ve teknik olarak doğru olmadığını unutmayın, ancak tam doğru açıklamanın çoğu insanın izlemesi zordur.)

Regresyon hattını anlamanıza / düşünmenize yardımcı olması için güven bandını kullanmalısınız. Ham veri noktalarını düşünmek için kullanmamalısınız. Regresyon çizgisinin her noktasında ortalamasını temsil ettiğini unutmayın (bunu daha iyi anlamanız gerekirse, cevabımı burada okumanıza yardımcı olabilir: Koşullu Gauss dağılımlarının ardındaki sezgi nedir? ). Öte yandan, gözlemlenen her veri noktasının koşullu ortalamaya eşit olmasını kesinlikle beklemezsiniz. Başka bir deyişle, bir veri noktasının aykırı olup olmadığını değerlendirmek için güven bandını kullanmamalısınız. YX


( Düzenle: bu not ana soru için çevreseldir, ancak OP için bir noktayı açıklığa kavuşturmayı amaçlamaktadır. )

Polinom regresyonu, aldığınız şey düz bir çizgi gibi görünmese de doğrusal olmayan bir regresyon değildir. 'Doğrusal' teriminin matematiksel bağlamda çok özel bir anlamı vardır, özellikle, tahmin ettiğiniz parametrelerin - betaların - hepsi katsayılardır. Polinom regresyonu sadece ortak değişkenlerinizin , , , vb . Olduğu anlamına gelir , yani birbirleriyle doğrusal olmayan bir ilişkiye sahiptirler, ancak betalarınız hala katsayılardır, bu yüzden hala doğrusal bir modeldir . Betalarınız mesela üsse, o zaman doğrusal olmayan bir modeliniz olurdu. XX2X3

Özetle, bir çizginin düz görünüp görünmediği, bir modelin doğrusal olup olmadığı ile ilgisi yoktur. Bir polinom modeli taktığınızda (örneğin ve ), model `` aslında sadece karesi olduğunu '' bilmez . Bunların sadece iki değişken olduğunu 'düşünüyor' (bazı çoklu doğrusallık olduğunu fark etmesine rağmen). Böylece, gerçekte, iki boyutlu bir uzayda (kavisli) bir regresyon çizgisinden ziyade üç boyutlu bir uzaya (düz / düz) bir regresyon düzlemi yerleştirmektedir . Bize düşünmek için bu yararlı değildir, ve o zamandan beri aslında, son derece zor görmeye mükemmel bir fonksiyonudurXX2X2X1X2X. Sonuç olarak, bunu bu şekilde düşünmekten rahatsız olmayız ve arazilerimiz gerçekten düzlemine iki boyutlu projeksiyonlardır . Bununla birlikte, uygun alanda, çizgi aslında bir anlamda 'düz'dür. (X, Y)

Matematiksel bir bakış açısından, tahmin etmeye çalıştığınız parametreler katsayılarsa, model doğrusaldır. Daha fazla açıklığa kavuşturmak için, standart (OLS) doğrusal regresyon modeli ile iki farklı biçimde sunulan basit bir lojistik regresyon modeli arasındaki karşılaştırmayı düşünün: En üst model OLS regresyonudur ve en alttaki model lojistik regresyondur, ancak farklı şekillerde sunulur. Her üç durumda da, modele uyduğunuzda, tahmin edersiniz . İlk iki model doğrusaldır , çünkü tüm

Y=β0+β1X+ε
ln(π(Y)1π(Y))=β0+β1X
βββ
π(Y)=exp(β0+β1X)1+exp(β0+β1X)
ββs katsayılardır, ancak alt model doğrusal değildir (bu formda), çünkü s üslüdür. (Bu oldukça garip gelebilir, ancak lojistik regresyon genelleştirilmiş doğrusal modelin bir örneğidir , çünkü doğrusal bir model olarak yeniden yazılabilir. Bununla ilgili daha fazla bilgi için, cevabımı burada okumak yardımcı olabilir: Logit ve probit modelleri arasındaki fark .) β

+1 Belgelerdeki örnekler bana güvenin oldukça yüksek, belki de% 95 olduğunu gösteriyor.
whuber

@ gung detaylı cevap için teşekkürler (ayrıca bir çek var!). İlk ifadenizi okudum ve biraz kafam karıştı. Lütfen daha fazla ayrıntı verebilir misiniz? Ortaya çıkan çizgi düz çizgi değilse (y = mx + b) o zaman doğrusal yapan nedir? Cevabınız için tekrar teşekkürler.
adhg

Docs.ggplot2.org/0.9.3.1/stat_smooth.html adresindeki dokümanlar , regresyon eğrisi için% 95 güven aralığı olduğunu iddia ediyor.
whuber

2
Bence varsayılan daha pürüzsüz Loess burada, polinom regresyonu yerine kullanımda mı?
xan

@adhg, lineer ve lineer olmayanları başka bir yerde kapsadığımı sanıyordum, ama bulamadım. Buraya biraz ekstra malzeme ekledim. HTH
gung - Monica'yı eski

11

Zaten var olan cevaplara eklemek için, bant ortalamanın bir güven aralığını temsil eder, ancak sorunuzdan açıkça bir tahmin aralığı arıyorsunuz . Tahmin aralıkları, yeni bir nokta çizerseniz, bu noktanın teorik olarak zamanın% X aralığında (X seviyesini ayarlayabileceğiniz) bir aralıktır.

library(ggplot2)
set.seed(5)
x <- rnorm(100)
y <- 0.5*x + rt(100,1)
MyD <- data.frame(cbind(x,y))

İlk sorunuzda gösterdiğiniz aynı tip arsaları yumuşatılmış loess regresyon çizgisinin ortalaması civarında bir güven aralığı ile üretebiliriz (varsayılan değer% 95 güven aralığıdır).

ConfiMean <- ggplot(data = MyD, aes(x,y)) + geom_point() + geom_smooth()
ConfiMean

resim açıklamasını buraya girin

Tahmin aralıklarının hızlı ve kirli bir örneği için, burada düzleştirme çizgileri ile doğrusal regresyon kullanarak bir tahmin aralığı oluşturuyorum (bu yüzden mutlaka düz bir çizgi değildir). Örnek verilerle iyi sonuç verir, 100 nokta için sadece 4 aralığın dışındadır (ve tahmin fonksiyonunda% 90 aralık belirledim).

#Now getting prediction intervals from lm using smoothing splines
library(splines)
MyMod <- lm(y ~ ns(x,4), MyD)
MyPreds <- data.frame(predict(MyMod, interval="predict", level = 0.90))
PredInt <- ggplot(data = MyD, aes(x,y)) + geom_point() + 
           geom_ribbon(data=MyPreds, aes(x=fit,ymin=lwr, ymax=upr), alpha=0.5)
PredInt

resim açıklamasını buraya girin

Şimdi birkaç not daha. Ladislav ile 2007'den beri düzenli bir seriye sahip olduğunuz için zaman serisi tahmin yöntemlerini göz önünde bulundurmanız gerektiğini kabul ediyorum ve eğer mevsimsellik varsa sert görünüyorsanız (noktaların bağlanması çok daha açık hale gelecektir) açıktır. Bunun için , mevsimsel bir pencere seçebileceğiniz tahmin paketindeki tahmini.stl işlevini kontrol etmenizi ve Loess kullanarak mevsimsellik ve trendin güçlü bir şekilde ayrıştırılmasını sağlar. Sağlam yöntemlerden bahsediyorum çünkü verilerinizde birkaç belirgin ani artış var.

Daha genel olarak, zaman serisi olmayan veriler için, zaman zaman aykırı değerlere sahip verileriniz varsa diğer sağlam yöntemleri dikkate alırım. Doğrudan Loess'i kullanarak tahmin aralıklarının nasıl oluşturulacağını bilmiyorum, ancak kantil regresyonu (tahmin aralıklarının ne kadar aşırı olması gerektiğine bağlı olarak) düşünebilirsiniz. Aksi takdirde, yalnızca potansiyel olarak doğrusal olmayacak şekilde oturmak istiyorsanız, işlevin x üzerinde değişmesine izin vermek için spline'ları düşünebilirsiniz.


4

Mavi çizgi düzgün bir yerel gerilemedir . Hattın kıvrımlığını spanparametre ile kontrol edebilirsiniz (0'dan 1'e). Ancak örneğiniz bir "zaman serisidir", bu nedenle yalnızca düzgün bir eğriye uymaktan daha uygun analiz yöntemlerini aramaya çalışın (yalnızca olası eğilimi ortaya çıkarması gerekir).

İçin belgelerine göre ggplot2(ve aşağıda yorumunda kitabında): stat_smooth bir olan güven aralığı içinde de düzgün gri renkte gösterilir. Güven aralığını kapatmak istiyorsanız se = FALSE kullanın .


1
(1) Gri alanın noktasal güven aralığı olduğunu iddia ettiği referansta görmüyorum. Örneklerden, gri alanın eğri için bir güven aralığı olduğu oldukça açık görünüyor . (2) Hiç kimse, gri alanın ötesindeki noktaların büyük bir kısmını "aykırı değer" olarak makul bir şekilde beyan etmeyecektir; bunlardan çok fazla var.
whuber

(1) benim hatam, burada "nokta-güven aralığı" anlamına gelen bir kitap ekliyorum: Wickham H (2009) ggplot2 Veri Analizi için Zarif Grafikler. Medya 212. (sayfa 14). (2) Katılıyorum.
Ladislav Naďo

Referanslarınızdan herhangi biri varsayılan güven düzeyinin ayarlandığını belirtiyor mu?
whuber

Hayır, varsayılan ayar hakkında herhangi bir referans bulamıyorum.
Ladislav Naďo

Varsayılanı referansınızın ilk sayfasında buldum: "(varsayılan olarak 0.95)." Bu pürüzsüz ya ciddi hataları vardır ya da başka referans nasıl yorumluyorsunuz yanlıştır vasıta That: veri noktası bu kadar büyük oranda tipik gri alanın ötesine uzanıp kod varsayarak doğru olduğundan, gri alan var bir güven bölgesi olmak tahmin için (yerleştirilmiş eğri) ve noktalar için bir güven bölgesi değil.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.