Doğrusal çoklu regresyon denklemindeki tüm IV'ler arasındaki paylaşılan varyans nerede?


10

Doğrusal bir çoklu regresyon denkleminde, eğer beta ağırlıkları her bir bağımsız değişkenin katkısını diğer tüm IV'lerin katkısının üzerine ve üstüne yansıtırsa, regresyon denkleminde DV'yi öngören tüm IV'lerin paylaştığı varyans nedir?

Örneğin, aşağıda gösterilen Venn şeması (ve buradaki CV'nin 'yaklaşık' sayfasından alınmışsa: https://stats.stackexchange.com/about ), yıldız işaretli alanın gireceği 3 IV ve 1 DV olarak yeniden etiketlendiyse çoklu regresyon denklemine?

resim açıklamasını buraya girin


4
Burada bir iniş vesilesine ihtiyacım yok. Bence bu soru temel düzeyde çoklu regresyonda neler olup bittiğini ele alıyor ve aksi takdirde asla tartışılmayacak olan MR hakkında bir şeyler açıklama fırsatı sunuyor.
gung - Monica'yı eski haline getirin

Yanıtlar:


8

Bu diyagramın ne anlama gelebileceğini anlamak için bazı şeyleri tanımlamamız gerekir. Diyelim ki Venn diyagramı 4 farklı değişken arasındaki örtüşen (veya paylaşılan) varyansı gösteriyor ve , ve bilgimize başvurarak seviyesini tahmin etmek istiyoruz . Yani, belirsizliği (yani varyansı) null varyanstan rezidüel varyansa indirgemek istiyoruz. Bu ne kadar iyi yapılabilir? Bu bir Venn diyagramının sizin için yanıtladığı sorudur . WbenkbenDbenggFÖrumBlÖgWbenkben

Her daire bir dizi noktayı ve dolayısıyla bir miktar sapmayı temsil eder. Çoğunlukla, varyansla ilgileniyoruzWbenkben, ancak şekil aynı zamanda öngörücülerdeki sapmaları da gösterir. Rakamımızla ilgili dikkat edilmesi gereken birkaç şey var. Birincisi, her değişken aynı miktarda varyansa sahiptir - hepsi aynı boyuttadır (herkes Venn diyagramlarını tam anlamıyla kullanmaz). Ayrıca, aynı miktarda örtüşme, vb. Vardır. Dikkat edilmesi gereken daha önemli bir şey, yordayıcı değişkenler arasında iyi bir örtüşme olmasıdır. Bu, birbirleriyle ilişkili oldukları anlamına gelir. Bu durum, ikincil (yani arşiv) veriler, gözlemsel araştırma veya gerçek dünya tahmin senaryolarıyla uğraşırken çok yaygındır. Öte yandan, bu tasarlanmış bir deney olsaydı, muhtemelen kötü tasarım veya yürütme anlamına gelirdi. Bu örneğe biraz daha devam etmek için, tahmin yeteneğimizin ılımlı olacağını görebiliriz; değişkenliğin çoğuWbenkben , tüm değişkenler kullanıldıktan sonra artık değişkenlik olarak kalır (şemaya göz atarak ). Dikkat edilmesi gereken başka bir şey de, ve modeline girildikten sonra değişkenliğin hiçbirini hesaba .R,20,35DbenggBlÖgFÖrumWbenkben

Şimdi, birden fazla öngörücüye sahip bir modele uyduktan sonra, insanlar genellikle bu değişkenleri yanıt değişkeniyle ilişkili olup olmadıklarını görmek için test etmek ister (bunun açık olduğuna rağmen insanlar bunun inanıyormuş gibi önemli olduğu açık değildir). Bizim sorunumuz, bu yordayıcıları test etmek için Kareler Toplamı'nı ayırmamız gerektiğidir ve yordayıcılarımız birbiriyle ilişkili olduğundan, birden fazla yordayıcıya atfedilebilecek SS vardır . Aslında, yıldız işaretli bölgede SS üç yordayıcıdan herhangi birine atfedilebilir . Bu , SS'nin benzersiz bir bölümünün olmadığı ve dolayısıyla benzersiz bir testin olmadığı anlamına gelir . Bu sorunun nasıl ele alınacağı araştırmacının kullandığı SS türüne vearaştırmacı tarafından verilen diğer kararlar . Birçok yazılım uygulaması varsayılan olarak tip III SS'yi döndürdüğünden, birçok kişi bir karar çağrısı yaptığını fark etmeden çakışan bölgelerdeki bilgileri atar . Bu sorunları, farklı SS türlerini açıklıyorum ve burada biraz ayrıntıya giriyorum .

Belirtildiği gibi soru, özellikle tüm bunların beta / regresyon denkleminde nerede göründüğünü sormaktadır . Cevap öyle değil. Bununla ilgili bazı bilgiler burada cevabımda yer alıyor (satırlar arasında biraz okumak zorunda kalacak olsanız da).


Merhaba Gung, Gönderin için teşekkürler. Çok ilginç ve bazı bölgelerde gözlerimi açtım. Ancak, bağlandığınız gönderinin satırlarını okumakta zorlanıyorum. Yani sorum şu: Doğrusal bir çoklu regresyon denkleminde, eğer beta ağırlıkları her bir bağımsız değişkenin katkısını diğer tüm IV'lerin katkısının üzerine ve üstüne yansıtırsa, regresyon denkleminde tüm IV'lerin paylaştığı varyans DV tahmin?
Joel

Evet, görmek oldukça zor olacak. Mesele şu ki, 1'in SS'yi test için nasıl bölümlendireceği ve 2 betaların tahmin edilmesi sorunu arasında temel bir fark var. 1, SS'nin hangi öngörücüye atfedilmesiyle ilgilidir; 2 betalar için en uygun değerleri seçer. Örtüşme, ilkinde görünür, ikincisinde değil. Eğer geriledi Eğer üzerine & kaydedilmiş artıkların, ardından gelenler Artıkların tahmin , sen betalar çılgınca dalgalanan görecekti (bu btw, uygunsuz) kaydedilmiş Artıkların-2, vb. Ancak Mult Reg tüm betaları aynı anda tahmin eder , bu yüzden görünmez. WbenkbenDbenggFÖrum
gung - Monica'yı eski haline getirin

Eğer "örtüşme ikincisinde görünmez" ise, regresyon denklemi paylaşılan varyansı nasıl yansıtabilir? Betas, diğer tüm IV'lerin etkileri istatistiksel olarak çıkarıldığında her IV'ün katkısını gösterirse, regresyon formülünün hangi kısmı, çıkarılan paylaşılan varyansın tahmin gücünü yansıtır? Veya üst üste binme Betas'a yansıtılmazsa IV'lerden birini 1 arttırırsanız, regresyon denklemi tahmin edilen Y'ye ne olacağını nasıl gösterebilir? Üçüncü bir soru: Venn diyagramının altında yatan verilerin MR analizinde Forum beta = 0 olur mu?
Joel

Çakışma testte , betalar değil - Bunu başka nasıl koyacağından emin değilim. Her beta, ortak değişkendeki 1 birim değişikliğin tepki değişkeni üzerindeki etkiyi gösterir, diğer her şey sabit tutulur ; diğer eş değişkenler modelden çıkarılırsa, belirli bir beta neredeyse kesinlikle aynı olmaz . Venn diyagramı gerçek veri oluşturma sürecini doğru bir şekilde yansıtıyorsa, için gerçek değer , ancak ampirik tahminler temelde pratikte asla tam olarak 0'a eşit değildir. βF=0
gung - Monica'yı eski durumuna getirin

1
@MarkWhite, öğrencinin cevabı çoğunlukla iyi. X1 ve X2 arasında mükemmel bir korelasyon olduğunda betalarının yarısı olduğu ifadesi doğru değildir; r = 1 olduğunda model tanımlanamaz (cf, burada ). R, 1'e yaklaştıkça, tahmini betalar örnek verilerdeki ilişkilere bağlı olacaktır ve numuneden numuneye büyük ölçüde değişebilir.
gung - Monica'yı eski durumuna getirin

5

Peter Kennedy, kitabında ve JSE makalesinde regresyon için Ballentine / Venn diyagramlarının güzel bir açıklamasına sahiptir .

Amaç, yıldızlı alan varyasyonunun sadece eğim katsayılarını tahmin etmek ve test etmek için atılmasıdır. Bu varyasyon, tahmin ve hesaplama amacıyla tekrar eklenirR,2.


+1, "tahmin etmek" ve "eğim katsayılarını" test etmek için eklerdim, ancak bununR,2iyi bir tanesidir.
gung - Monica'yı eski

Gerçekten ve bitti.
Dimitriy V. Masterov

Yıldızlı alan tahmin edilen y'yi hesaplamak için mi kullanılıyor? Öyleyse, öngörülen formülde yıldızlı alan tahmin edilen y'ye nerede katkıda bulunur? Farklı bir ifadeyle, tahmin formülündeki hangi terim veya terimler yıldızlı alanı yansıtır?
Joel W.

3

Bunun (çok) tarihli bir iş parçacığı olduğunu fark ettim, ancak meslektaşlarımdan biri bu hafta aynı soruyu sorduğundan ve Web'de ona işaret edebileceğim hiçbir şey bulamadığından, iki sentimi "gelecek kuşaklar için" ekleyeceğimi düşündüm buraya. Bugüne kadar verilen cevapların OP'nin sorusunu cevapladığına ikna olmadım.

Problemi sadece iki bağımsız değişkeni içerecek şekilde basitleştireceğim; ikiden fazla genişletmek çok basittir. Şu senaryoyu inceleyin: iki bağımsız değişken (X1 ve X2), bağımlı bir değişken (Y), 1000 gözlem, iki bağımsız değişken birbiriyle yüksek derecede ilişkilidir (r = .99) ve her bağımsız değişken bağımlı ile ilişkilidir değişken (r = .60). Genelliği kaybetmeden, tüm değişkenleri ortalama sıfır ve standart sapma ile standart hale getirin, böylece kesişim terimi her regresyonda sıfır olacaktır.

X1 üzerinde Y'nin basit bir doğrusal regresyonunu çalıştırmak, r kare olarak 0,36 ve b1 değeri 0,6 üretir. Benzer şekilde, X2 üzerinde Y'nin basit bir doğrusal regresyonunun yürütülmesi, r kare olarak 0,36 ve b1 değeri 0,6 üretecektir.

X1 ve X2'de Y'nin çoklu bir regresyonunu yürütmek, sadece 0,36'dan daha yüksek bir çiş r kare oluşturur ve b1 ve b2'nin her ikisi de 0,3 değerini alır. Böylece, Y'deki paylaşılan varyasyon BOTH b1 ve b2'de (eşit olarak) yakalanır.

OP'nin yanlış (ama tamamen anlaşılabilir) bir varsayım yapmış olabileceğini düşünüyorum: yani X1 ve X2 mükemmel bir şekilde korelasyona yaklaştıkça, çoklu regresyon denklemindeki b değerleri ZERO'ya yaklaşıyor. Durum böyle değil. Aslında, X1 ve X2 mükemmel bir şekilde korelasyona yaklaştıkça, çoklu regresyondaki b-değerleri, ikisinden birinin basit doğrusal regresyonundaki b-değerinin YARIM'ına yaklaşır. Bununla birlikte, X1 ve X2 mükemmel bir şekilde ilişkilendirilmeye yaklaştıkça, b1 ve b2'nin STANDART HATASI sonsuza yaklaşıyor ve böylece t değerleri sıfırda birleşiyor. Böylece, t-değerleri sıfırda birleşir (yani, X1 ve Y veya X2 ve Y arasında UNIQUE doğrusal ilişki yoktur),

Bu nedenle, OP'nin sorusunun cevabı, X1 ve X2 arasındaki korelasyon birliğe yaklaştıkça, kısmi eğim katsayılarının EACH yaklaşımları Y değerinin tahminine eşit katkıda bulunan yaklaşımlardır, ancak hiçbir bağımsız değişken bağımlı değişken.

Bunu ampirik olarak kontrol etmek isterseniz, yukarıda açıklanan özelliklere sahip fabrikasyon bir veri kümesi oluşturun (... Corr2Data.sas ... adlı bir SAS makrosu kullandım). B değerlerine, standart hatalara ve t-değerlerine göz atın: bunların tam olarak burada açıklandığı gibi olduğunu göreceksiniz.

HTH // Phil


1
Bu harika bir açıklama, teşekkürler. R'deki farklı durumları simüle etmeye çalıştım ve n çok büyükse veya çıkış (Y) ile paylaşılan bileşenler (X1 ve X2) arasındaki korelasyon varsa, paylaşılan değişkenlikten kurtulamayacağınız sonucuna vardım. ) çok yüksek. Peki t değerleri neden X1 ve X2'nin benzersiz katkıları olmayan bir şeyi yansıtıyor? Eğer regresyon t-değerleri tahmin edicilerin benzersiz katkılarını yansıtıyorsa, paylaşılan değişkenliğin t-değerlerini hiç etkilemediğini görmemeliyiz, ama biz yapıyoruz. Neden?
Galit
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.