Regresyon neden varyansla ilgilidir?


19

Bu notu okuyorum .

2. sayfada şunu belirtir:

"Verilerdeki varyansın ne kadarı belirli bir regresyon modeli ile açıklanıyor?"

"Regresyon yorumu, katsayıların ortalamasıyla ilgilidir; çıkarım onların sapmalarıyla ilgilidir."

Bu tür ifadeleri defalarca okudum, neden "verilerdeki varyansın ne kadarının verilen regresyon modeli tarafından açıklandığını" umursalıyız? "... daha spesifik olarak, neden" varyans "?


"[V] ariance" aksine, standart sapma? Regresyonda önemsememiz gerektiğini düşündüğünüz nedir? Regresyon modeli oluştururken tipik hedefleriniz nelerdir?
gung - Monica'yı eski durumuna döndürün

Varyansın modellenen miktardan farklı birimleri vardır, bu yüzden her zaman "model tarafından açıklanan varyans oranını" yorumlamakta zorlandım.
uçar

Yanıtlar:


18

neden "verilerdeki varyansın ne kadarının verilen regresyon modeli tarafından açıklandığını" umursalım?

Buna cevap vermek için, varyansın belirli bir yüzdesinin regresyon modeli tarafından açıklanmasının tam olarak ne anlama geldiğini düşünmek yararlı olacaktır.

Let sonuç değişkeni olabilir. Bir regresyon modelinde bağımlı değişkenin olağan örnek varyansı 1'dir.Y1,...,YnŞimdi izin Y i f (xi)bir tahmini olarakYibelirleyici değerleri regresyon modeli, doğrusal bir en az kare görexi. Kanıtlanmış gibiburada, yukarıda bu varyans olarak bölümlenmiş edilebilir:1

1n1i=1n(YiY¯)2
Y^if^(Xi)YiXi
1n1i=1n(YiY¯)2=1n1i=1n(YiY^i)2residual variance+1n1i=1n(Y^iY¯)2explained variance

En azından kareler regresyonunda, tahmin edilen değerlerin ortalaması , bu nedenle toplam varyans, gözlemlenen ve tahmin edilen değerler (artık varyans) artı tahminlerin örnek varyansı (açıklanan varyans) arasındaki ortalama kare farkına eşittir, sadece bir fonksiyonu olan X, s . Bu nedenle "açıklandığı" varyans varyansın olarak düşünülebilir Y i varyasyon atfedilebilir X i . Varyans oranı Y ı ( "açıklandığı" yani varyasyon oranı Y i varyasyon atfedilebilirY¯XYiXiYiYi ), bazen şu şekilde ifade edilir , R 2 . XiR2

Şimdi iki uç örnek kullanıyoruz, bu varyans ayrışmasının neden önemli olduğunu açıklığa kavuşturuyoruz:

  • (1) Tahmincilerin yanıtlarla hiçbir ilgisi yoktur . Bu durumda, için (en küçük kareler), en iyi tarafsız belirleyicisi olan Y, i = ¯ Y . Bu nedenle toplam varyans Y i kalıntı varyansa sadece eşittir ve belirleyicileri varyans ile ilişkili değildir , X i .YiY^i=Y¯YiXi

  • (2) Öngörücüler, öngörücülerle mükemmel bir şekilde doğrusal ilişkilidir . Bu durumda, tahmin tam olarak doğru ve Y, I = Y i . Bu nedenle artık bir varyans yoktur ve sonuçtaki varyansın tamamı, sadece öngörücülerin bir fonksiyonu olan tahminlerin kendisindeki varyanstır. Bu nedenle tüm sonuçlarda varyans belirleyicileri farklılıktan sadece kaynaklanmaktadır x i .Y^i=YiXi

Gerçek verilere sahip durumlar genellikle bu iki kaynağa atfedilebilecek varyans oranı gibi iki uç arasında yer alır. Daha fazla "açıkladığı" vardır - örneğin, daha fazla varyasyon nedeniyle varyasyon olduğunu X i - daha iyi öngörüler Y i performans olan (yani, daha küçük bir "artık varyans" olduğu) en küçük kareler modelinin iyi uyduğunu söylemenin başka bir yolu. YiXiY^i


Bu benim cevabım gibi ama belki biraz daha iyi açıkladı. Ayrıca ben söz olabilirdi olası bir critque bakınız ben Y. ortalama varyasyon göre yazdım gerektiğidir
Michael R. Chernick

1
(Ben OP bağlantılı slaytlar dayalı bahsediyor düşünüyorum) @MichaelChernick, evet ama en az kareler regresyon, tahmin edilen değerlerin ortalaması ortalama eşittir sadece örnek varyans diyoruz böylece, s tahminleri. Y
Makro

Cevabımı düzenlemeyi yaptım çünkü varyans ayrışmasının düzgün çalışması için Yb gerekli.
Michael R. Chernick

Evet, en küçük kareler regresyonundan bahsettiği açıktı. Hala yazdıklarının çoğu, söylediğim şeyi biraz farklı bir şekilde tekrarlıyor. Sana hala +1 verdim.
Michael R. Chernick

1
Makro, benim açımdan bu ayrışma oluşur sadece eğer ve "regresyon" kadar doğal sabit vektörü içeren bir alan üzerine bir ortogonal projeksiyonu içerir. En son yorumunuzla çelişen görünen sabit vektörü modelimizden kaldırarak bu ayrışmayı kolayca "bozabileceğimizi" unutmayın. yy^,y^y¯1=0
kardinal

9

Benden önce cevap veren büyük istatistik köpekleri ile koşamam ve belki de düşüncem saf, ama bu şekilde bakıyorum ...

Bir arabada olduğunuzu ve yola inip tekerleği sola ve sağa döndürdüğünüzü ve gaz pedalına ve frenlere çılgınca bastığınızı hayal edin. Ancak araba hareketlerinizden etkilenmeden sorunsuz bir şekilde hareket ediyor. Hemen gerçek bir arabada olmadığınızdan şüpheleniyordunuz ve belki yakından bakarsak Disney World'de bir yolculuğa çıktığını belirlersek. (Gerçek bir arabada olsaydınız, ölümcül bir tehlike altında olursunuz, ama oraya gitmeyelim.)

Öte yandan, bir arabada yolda ilerliyorsanız ve tekerleği biraz sola veya sağa döndürüyorsanız, aracın hareket etmesine neden olduysanız, gaz pedalına basmak gaz pedalına bastığınızda sizi gaz pedalına geri itti. oturma yeri. Yüksek performanslı bir spor otomobilde olduğunuzdan şüphelenebilirsiniz.

Genel olarak, muhtemelen bu iki uç arasında bir şey yaşarsınız. Girişlerinizin (direksiyon, frenler, gaz) otomobilin hareketini doğrudan etkileme derecesi, otomobilin kalitesi hakkında size bir ipucu verir. Yani, aracınızın hareketlerinizle ilgili hareketindeki varyansı ne kadar fazlaysa araba o kadar iyi olur ve araba kontrolünüzden bağımsız olarak ne kadar fazla hareket ederse o kadar kötü olur.

yx1,x2,...,xiyy

yxixi yxiyxiy.

PS: Winnie The Pooh benzetmesini bulamadım, ama denedim.

PPS [EDIT:] Bu özel soruyu ele aldığımı unutmayın. Varyansın% 100'ünü hesaba katarsanız, modelinizin harika bir performans sergileyeceğini düşünmeyin. Ayrıca, modelinizin o kadar esnek olduğu, rastgele tuhaflıkları ve tuhaflıkları da dahil olmak üzere, eğitim verilerine çok yakıştığı aşırı uydurmayı düşünmeniz gerekir. Analojiyi kullanmak için, iyi direksiyon ve frenlere sahip bir araba istiyorsunuz, ancak sadece kullandığınız test pistinde değil, yolda iyi çalışmasını istiyorsunuz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.