Artıklar “öngörülen eksi gerçek” veya “gerçek eksi tahmin ediliyor” mu?

46

Farklı olarak "tahmini eksi gerçek değerler" veya "gerçek eksi öngörülen değerler" olarak tanımlanan "artıklar" gördüm. Gösterim amacıyla, her iki formülün de yaygın bir şekilde kullanıldığını göstermek için, aşağıdaki Web aramalarını karşılaştırın:

Uygulamada, neredeyse hiç bir fark yaratmaz, çünkü bireysel artıkların işareti genellikle önemli değildir (örneğin, kareler varsa veya mutlak değerler alınırsa). Ancak benim sorum şu: bu iki versiyondan biri (ilk önce gerçek ve ilk tahmin) "standart" olarak kabul edilir mi? Kullanımımda tutarlı olmayı seviyorum, bu yüzden eğer sağlam bir konvansiyonel standart varsa, onu izlemeyi tercih ederim. Bununla birlikte, standart yoksa, bunu standart bir kongre olmadığı konusunda ikna edici bir şekilde kanıtlanabilirse bir cevap olarak kabul etmekten memnuniyet duyarım.

residuals terminology error

— Tripartio
kaynak

8

Artık, modelin hatasına bağlı olduğundan, yazdığımızda , bize "sabit parça" artı "rasgele parça" olduğunu düşündürür , böylece artık eksi .

y = a + b x + ϵ

$y = a + bx + \epsilon$

y

$y$

y

$y$

a + b x

$a + bx$

— AdamO

Tahmin edilen eksi gerçek veya gerçek tahmin edilen eksi olacaktır kestirim hata ise (veya negatif olan), monte eksi gerçek veya donatılmış gerçek eksi tortusal olacaktır (ya da bunun negatif). Stephen Kolassa'nın cevabı, bir nedenden dolayı tahmin hatalarından bahsediyor .

— Richard Hardy

Çalışmak için daha uygun (öngörülen gerçek) buluyorum. Çoğu zaman, artıkların türevlerini bazı parametrelere göre hesaplamanız gerekir. (Gerçek-öngörülen) kullanırsanız, eksi işaretleri, hesaplarınızın geri kalanının tamamını takip etmeli, daha fazla parantez kullanılmasını gerekli kılmalı, meydana geldiklerinde çift negatifleri iptal ettiğinizden emin olmalısınız. Deneyimlerime göre, bu daha fazla hataya yol açıyor

— Nick Alger

42

Artıklar her zaman gerçek eksi tahmin edilir. Modeller: Bu nedenle, hataların tahminleri olan artıkları :

y = f (x; β) + ε

$y=f(x;\beta)+\varepsilon$

\hat{ε}

$\hat\varepsilon$

ε

$\varepsilon$

\hat{ε} = y - \hat{y} \hat{y} = f (x; \hat{β})

$\hat\varepsilon=y-\hat y\\\hat y=f(x;\hat\beta)$

@Whuber ile işaretin matematiksel olarak gerçekten önemli olmadığını kabul ediyorum. Yine de bir kongre yapmak iyi. Ve şimdiki kongre benim cevabımdaki gibidir.

OP bu konuda yetkilerime itiraz ettiğinden, bazı referanslar ekliyorum:

" (2008) Artık. In: İstatistiğin Muhtasar Ansiklopedisi. Springer, New York, NY , aynı tanımı veriyor.
Fisher'ın "Araştırma Çalışanları İçin İstatistiksel Yöntemler" 1925 de aynı tanımlara sahiptir, bu 1934 versiyonunda Bölüm 26'ya bakınız . Alçakgönüllü unvanı rağmen, bu tarihsel bağlamda önemli bir eserdir

— Aksakal
kaynak

3

Sorumu, artıkların her zaman gerçek eksi olarak tahmin edilmediğini açıkça gösteren bir örnek web araştırması eklemek üzere düzenlemiştim; alternatif de oldukça sık - bu yüzden benim karışıklık. Benim sorum, ne yazık ki, cevabınızı sağlamayan, doğru sözleşmenin yetkili bir dokümantasyonu olup olmadığıdır.

— Tripartio

5

Gözlemlediğim okumaya göre tahmin edilen istatistikteki çoğunluk modern sözleşmesidir. Bununla birlikte, Gauss'un zıt sözleşmeyi kullanması dikkat çekicidir: doğal olarak kare artıkları en az kareler, kareler toplamları veya ortalama kareler bağlamında aynı şekildedir. Bireysel kalıntılara bakmak için 19. yüzyıl ve daha önceki emirler olmasına rağmen, kalıntıları önemsemek ve özellikle komplo etmek, 1960'ların başlarına kadar yaygın ve rutin olmaya başlamamıştır. Yani, sadece artıkların işareti göründüğünde, herhangi birinin ne olduğu ile ilgilenmesi gerektiğine bakılır.

-

$-$

— Nick Cox

18

+1. Kalıntı kavramı, "geride kalan, geriye kalanlar" dan kaynaklanır : başka bir deyişle, tahmin yapıldıktan sonra verilerde kalanlar . Bu, bu miktarları “artık” olarak belirleyen kişinin “veri değeri eksi uygun değer” tanımına sahip olduğunu düşündürmektedir.

— whuber

3

@NickCox, lütfen yorumlarınızı bir cevap olarak resimli olarak resmileştirir misiniz? Sorum, bilimsel kongre ile ilgili olduğu kadar istatistiklerle de ilgili değil, bu nedenle yorumunuzda belirtilen tarihi ve kullanım öngörüleri, aradığım cevaplar.

— Tripartio

6

Kalan uzun, uzun sözcükler Salsburg'dan önce gelir. Bazen eğlenceli olmasına rağmen kitabının yetkili olmadığını söylemek zorundayım. Eğer ilgileniyorsanız incelememi Biometrics jstor.org/stable/3068274 adresinde bulabilirsin

— Nick Cox

22

Sadece rastladım çok zorunlu hallerde olacak bir cevap için doğru bir.

Regresyon (ve herhangi bir türdeki istatistiksel modellerin çoğu), bir yanıtın koşullu dağılımının açıklayıcı değişkenlere nasıl bağlı olduğu ile ilgilidir. Bu dağılımların karakterizasyonunun önemli bir unsuru genellikle "çarpıklık" olarak adlandırılan bir ölçüdür (çeşitli ve farklı formüller sunulmuş olsa da): dağıtım şeklinin simetriden ayrıldığı en temel yoldur. İşte olumlu çarpık koşullu yanıtlara sahip bir iki değişkenli verinin (yanıt ve tek bir açıklayıcı değişken ) bir örneği : $y$ $x$

Mavi eğri, sıradan en küçük kareler için uygundur. Takılan değerleri çizer.

Bir cevap ile verilen değeri arasındaki farkı hesapladığımızda, koşullu dağılımın yerini değiştiririz, ancak şeklini değiştirmeyiz. Özellikle, çarpıklığı değişmeyecektir. $y$ $\hat y$

Bu, değişen koşullu dağılımların öngörülen değerlerle nasıl değiştiğini gösteren standart bir teşhis grafiğidir. Geometrik olarak, önceki scatter grafiğini "kadar" ile neredeyse aynıdır.

Bunun yerine, farkı diğer siparişte hesaplarsak, bu koşullu dağılımın şeklini değiştirir ve sonra tersine çevirir . Eğriliği, orijinal koşullu dağılımın negatif olacaktır. $\hat y - y,$

Bu, önceki rakam ile aynı miktarları gösterir, ancak artıklar verileri uygunluklarından çıkartarak hesaplanmıştır - ki bu elbette önceki kalıntıları olumsuzlamakla aynıdır.

Her ikisi de önceki şekillerin her biri matematiksel olarak eşdeğer olmasına rağmen - biri sadece mavi ufuktaki noktaları çevirerek diğerine dönüştürülür - bunlardan biri orijinal arsa ile daha doğrudan görsel bir ilişki kurar.

Sonuç olarak, amacımız artıkların dağılım özelliklerini orijinal verinin özellikleriyle ilişkilendirmek ise - ve hemen hemen her zaman böyledir - o zaman cevapları değiştirmek ve değiştirmek yerine yanıtları değiştirmek daha iyidir.

Doğru cevap açık: artıklarınızı olarak hesaplayın $y - \hat y.$

— whuber
kaynak

1

Buradaki çarpıklık ile ilgili özel olanı takip ettiğimi sanmıyorum - orijinal arsa ile eşleşen artıklar hakkındaki argümanınız kendi başına duruyor mu?

— MichaelChirico

2

@Michael Çok haklısın. Bununla birlikte, çarpıklık, noktayı göstermek için kullanışlıdır, çünkü bir dağılımın şeklini, negatif şeklinden açıkça ayırt eder.

— whuber

10

Green & Tashman (2008, Foresight ), tahmin hataları için benzer soru üzerine yapılan küçük bir anketi rapor ediyor. Her iki kongre için argümanlarını kendileri tarafından bildirildiği gibi özetleyeceğim:

"Gerçek tahmini" için argümanlar

İstatistiksel sözleşme . $y=\hat{y}+\epsilon$
Sismolojiden en az bir katılımcı, bunun aynı zamanda sismik dalga seyahat süresinin modellenmesi için bir sözleşme olduğunu yazdı. “Gerçek sismik dalga, model tarafından öngörülen süreden önce geldiğinde, negatif seyahat süresi artıkları var (hata).” ( sic )
Bu kongre biz yorumlamak eğer mantıklı bütçe, plan veya hedef olarak. Burada olumlu bir hata, bütçenin / planın / hedefin aşıldığı anlamına gelir. $\hat{y}$
Bu sözleşme üstel yumuşatma formüllerini biraz daha sezgisel hale getiriyor . İşaretini kullanabiliriz . Diğer kongre ile birlikte, bir işareti kullanmamız gerekir . $+$ $-$

"Tahmini gerçek" için bağımsız değişkenler

Eğer , pozitif bir hata tahminin çok yüksek olduğunu gösterir. Bu, sohbetten daha sezgiseldir. $y=\hat{y}-\epsilon$

Buna bağlı olarak, olumlu bir önyargı beklenen olumlu hatalar olarak tanımlanırsa , bu sözleşmeyle ilgili tahminlerin ortalama olarak çok yüksek olduğu anlamına gelir.

Ve bu hemen hemen bu kongre için verilen tek tartışma. Sonra tekrar, yanlış anlaşılmalar göz önüne alındığında diğer kongre yol açabilir (olumlu hatalar = tahmin çok düşük), bu güçlü bir karardır.

Sonunda, artıklarınızı iletmek için kime ihtiyacınız olduğunu söyleyeceğim. Ve bu tartışmanın kesinlikle iki tarafı olduğu göz önüne alındığında, hangi sözleşmeyi takip ettiğinizi açıkça belirtmek mantıklıdır.

— S. Kolassa - Monica'yı yeniden kurun
kaynak

7

İlginç olan, ancak ne zaman birileri "sezgisel" dediğinde, bunu "bana tanıdık" olarak tercüme ediyorum ve çeviri genellikle daha ikna edici ve asla daha az. Bunu dene: Einstein toplama sözleşmesi sezgiseldir. Sadece buna alıştığın zaman. Saat yönünün tersine ekseninden ölçüm açıları sezgiseldir. Coğrafyacılar veya koordinat geometrisi okumadan önce pusula kullanmayı öğrenenler için.

x

$x$

— Nick Cox

3

@NickCox: soyut olarak haklısın. Ancak, çok sayıda insanı alın ve onlara şu soruyu sorun: "Bugünün sıcaklığı için hava tahmini büyük pozitif bir hata yaptı. Tahminin (A) çok yüksek veya (B) çok düşük olduğuna inanıyor musunuz ?" Sanırım, ezici bir çoğunluğun (A) veya (B) 'den birinin hangisini seçeceğini tahmin edebilirim.

— S. Kolassa - Monica'yı

6

Evet - ve eğer bu soruyu “Sıcaklığın (A) ' nın tahminden daha yüksek veya (B) olduğuna inanıyor musunuz? ” İfadesini kullandıysanız, tam tersi cevapları çok iyi alabilirsiniz ! "Olumlu hataya" atıfta bulunmak, yalnızca "hata nedir" sorusunu ortaya çıkarır ve bu da bizi mükemmel bir biçimde dairesel bir şekilde orijinal soruya geri getirir.

— whuber

2

@whuber, bu sorunun çok doğal olmayan bir ifadesi. “Gözlenen” in “sabit” olduğu göz önüne alındığında, modelin onunla olan ilişkisi etrafındakilerden daha doğal görünüyor. "Hız sınırı hızımın altındaydı" yerine, hızlı gitmek için hız cezası alıyorum. Doğal dil argümanları kesinlikle teknik terim / dil için sınırlı bir uygulamaya sahiptir ancak /

— mbrig

2

@ whuber Söylediğim şey, soruyu ifade etmenin bir yolunun açıkça daha doğal olduğu (en azından İngilizce).

— mbrig

4

Farklı terminoloji, farklı sözleşmelere işaret eder. "Artık" terimi, tüm açıklayıcı değişkenler hesaba katıldıktan sonra kalan, yani gerçek öngörülen anlamına gelir. "Tahmin hatası", tahminin gerçek tahminlerden ne kadar saptığını, yani gerçek tahminin gerçek olduğunu gösterir.

Kişinin modelleme anlayışı aynı zamanda hangi sözleşmenin daha doğal olduğunu da etkiler. Bir veya daha fazla özellik sütunu , yanıt sütunu ve tahmin sütunu ile bir veri çerçeveniz olduğunu varsayalım . $X = x_1,x_2...$ $y$ $\hat y$

Bir anlayış "gerçek" değer olduğu ve yalnızca dönüştürülmüş bir sürümüdür . Bu kavramda, ve her ikisi de rasgele değişkenlerdir ( türetilmiş olan). Her ne kadar biz aslında ilgilendiğiniz biridir yüzden gözlemleyebilirsiniz biridir için bir proxy olarak kullanılan . "Hata" ne kadar bu "gerçek" değer sapması bu . Bu, hatanın bu sapma yönünü izleyerek, yani olarak tanımlanmasını önerir . $y$ $\hat y$ $X$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $\hat y$ $y$ $\hat y$ $y$ $e = \hat y -y$

Bununla birlikte, “ ” yı “gerçek” değer olarak düşünen başka bir anlayış var . Yani y , bazı deterministik süreçlerle bağlıdır ; belirli bir durumu, belirli bir deterministik değere yol açar. Bu değer daha sonra bazı rastgele işlemlerle bozulur. Bu yüzden . Bu anlayışta, , "gerçek" değeridir. Örneğin, g'nin değerini, yerçekiminden kaynaklanan ivmelenmeyi hesaplamaya çalıştığınızı varsayalım. Bir grup nesneyi düşürüyorsunuz, ne kadar düştüklerini ( ) ve düşmeleri ne kadar sürdüğünü ölçtünüz ( ). Daha sonra verileri y = modeliyle analiz edersiniz. $\hat y$ $X$ $X$ $x \rightarrow f(X)\rightarrow f(X)+error()$ $\hat y$ $X$ $y$ $\sqrt{\frac{2x}{g}}$ . Bu denklemin tam olarak çalışmasını sağlayan g değerinin olmadığını tespit edersiniz. Yani sonra bunu model

$\hat y = \sqrt{\frac{2x}{g}}$
$y = \hat y +error$ .

Yani değişken y alıp bir "gerçek" değer orada olmak için düşünün, bir aslında fiziksel yasalar tarafından oluşturuluyor ve ardından diğer bazı değer olan şey bağımsız modifiye gibi ölçüm hataları veya rüzgar esintileri veya her neyse. $\hat y$ $y$ $\hat y$ $X$

Bu anlayışta, y " alıp gerçekliğin" yapması "gerektiği ve bunu kabul etmeyen cevaplar alırsanız, gerçekte yanlış cevap. Şimdi elbette bu, bu şekilde konulduğunda aptalca ve kibirli görünebilir, ancak bu anlayışı sürdürmek için iyi nedenler vardır ve bu şekilde düşünmek faydalı olabilir. Ve sonuçta, bu sadece bir model; istatistikçiler mutlaka bunun aslında dünyanın işleyişinin böyle olduğunu düşünmüyorlar (muhtemelen bazıları olsa da). Ve denklemi göz önüne alındığında, hataların gerçek eksi öngörüldüğü şeklinde olur. $\sqrt{\frac{2x}{g}}$ $y = \hat y +error$

Ayrıca, ikinci anlayışın "gerçeği yanlış anladı" yönünden hoşlanmıyorsanız, "y'nin bağlı olduğu bazı süreçleri belirledik , ancak almadığımızı" tam olarak doğru cevaplar, bu yüzden y'yi de etkileyen başka bir g süreci olmalı. " Bu varyasyonda $X$

$\hat y = f(X)$
$y = \hat y+g(?)$
$g = y-\hat y$ .

— Acccumulation
kaynak

4

@Aksakal'ın cevabı tamamen doğru, ancak bana (ve öğrencilerime) yardımcı olduğunu düşündüğüm bir ek unsur daha ekleyeceğim.

Slogan: İstatistik "mükemmel" dir. Olduğu gibi, her zaman mükemmel bir tahmin sağlayabilirim (bazı göz kaşlarının şu anda yükseldiğini biliyorum ... bu yüzden beni dinle).

Gözlemlenen değerleri olarak tahmin edeceğim . Bazı modellerde, gözlemlenen her değer için öngörülen bir değer üreteceğim, buna diyeceğim . Tek sorun, bu genellikle (her zaman) Yani, yeni bir değişken ekleyeceğiz böylece eşitlik ... ama bana göre daha iyi seçenek eklemek gerçek değere eklemek yerine "öngörülen" ("telafi") değerimiz (gerçek bir değerden toplama veya çıkarma gibi fiziksel olarak mümkün olmayabilir ... aşağıdaki yorumlara bakın): Şimdi, "mükemmel" bir tahminimiz var ... "son" değerimiz gözlemlenen değerimizle eşleşiyor. $y_i$ $\hat{y}_i$

y_{i} \neq {\hat{y}}_{i}

$y_i \ne \hat{y}_i$

ϵ_{i}

$\epsilon_i$

y_{i} = {\hat{y}}_{i} + ϵ_{i}

$y_i = \hat{y}_i + \epsilon_i$

Açıkçası, bu ne olup bittiğinin altında yatan istatistiksel teorinin muazzam bir miktarını yansıtıyor ... ama gözlemlenen değerin iki ayrı bölümün (sistematik bir bölüm ve rastgele bir bölüm) toplamı olduğu fikrine vurgu yapıyor. Eğer bu formda hatırlarsanız, her zaman artık, kalıntısının tahmin edilen gözlemlenen eksi olduğunu görürsünüz . $\epsilon_i$

— Gregg H
kaynak

2

Çoğu zaman, başka bir şekilde yazıldığında, , genellikle işareti (artıkların veya mutlak karelerin mutlakları ile çalışırken olduğu gibi ).

{\hat{y}}_{i} - y_{i}

$\hat{y}_i - y_i$

— Gregg H

6

Neden "onu öngörülen değerimize eklemek en iyisi"? Neden "tahminimizle aynı fikirde olmak için verinin ayarlanması gerektiğini görmüyorsunuz"? Her iki yaklaşım da diğerinden daha belirgin, anlamlı veya "sezgisel" iddiasına sahip görünmüyor.

— whuber

2

@ bir ürün "gerçek" (gözlemlenen, somut), diğer ise (varsayımsal) bir yapıdır; Eğer ağırlığa göre yüksekliği modelliyor olsaydık, someone birisini 3 santim kadar “küçültmek” sadece gerçek / gözlenen boylarını bazı (hayali) öngörülen değerle eşleştirmek için uygun olur mu?

— Gregg H

2

Evet - veriler hakkında düşünmenin yaygın bir yolu. Ben sadece insanların bu soruyu nasıl algılayacağı ve "en iyi" nin anlamını anlama konusundaki varsayımlarınızın spekülatif ve öznel olabileceği ihtimalini belirtmeye çalışıyorum.

— whuber

fair point ... kısa bir yorum ile güncellenecektir

— Gregg H

2

$\newcommand{\e}{\varepsilon}$ Belirli en küçük kareler doğrusal regresyon örneğini kullanacağım. Modelimizi olarak alırsak, @Aksakal'ın işaret ettiği gibi, doğal olarak yani oluruz . Bunun yerine alırsak biz kesinlikle yapmak serbesttir bizim model olarak, o zaman olsun . Bu noktada gerçekten bir belirsiz tercihi yanı sıra başka üzerinden bir tercih için hiçbir neden yok üzerinde . $Y = X\beta + \e$ $\e = Y - X\beta$ $\hat \e = Y - \hat Y$ $Y = X\beta - \e$ $\e = X\beta - Y \implies \hat \e = \hat Y - Y$ $1$ $-1$

Ama eğer o zaman artıklarımızı ile elde ederiz , burada tasarım matrisinin sütun uzayına dikey olarak çıkıntı yapan boş bir . Bunun yerine o zaman . Fakat Kendisi . Yani gerçekten bir projeksiyon matrisinin negatifi, yani . Bu yüzden bunu kullanarak ortaya çıkan negatifi geri almak olarak görüyorum , bu yüzden para cezası uğruna sadece kullanmak daha iyi $\hat \e = Y - \hat Y$ $(I - P_X)Y$ $I - P_X$ $X$ $Y = X\beta - \e$ $\hat \e = (P_X - I)Y$ $P_X - I$ $(P_X - I)^2 = P_X^2 - 2P_X + I = -(P_X - I)$ $P_X - I$ $I - P_X$ $Y = X\beta - \e$ $Y = X\beta + \e$ , bu da bize kalanlar olarak verir . $Y - \hat Y$

Başka bir yerde de belirtildiği gibi kullanırsak kırılma gibi bir şey olmaz , ancak kullanmak için yeterince iyi bir neden olduğunu düşündüğüm bu çifte olumsuz durumla sonuçlanır . $\hat Y - Y$ $Y - \hat Y$

— JLD
kaynak

Ama hiçbir şey yazma ait özel değerlerin işaretleri ile ilgisi yoktur artık yazmak yerine, bir taahhüt veya varsayım veya pratikte olumlu. Aynı denklem olabilir ama işareti ile ters.

+ e

$+ e$

e

$e$

y = β_{0} + β_{1} x

$y = \beta_0 + \beta_1 x$

β_{0}

$\beta_0$

β_{1}

$\beta_1$

e

$e$

— Nick Cox

@NickCox, yorumunuz için teşekkür eder, cevabımı modelimizi yazmak istediğimiz varsayımına dayandırdığımı fark ettim . Bunu ele almak için yeniden

Y = X β + ε

$Y = X\beta + \varepsilon$

— yazdım