Doğrusal regresyonda çoklu bağlantı mekanizmasının neden bir sorun olduğu konusunda sezgisel bir açıklama var mı?


85

Wiki, çoklu bağlantı doğrusallık regresyonunda bir sorun olduğunda ortaya çıkan sorunları tartışır . Temel problem, çoklu doğrusallık, bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkisinin değerlendirilmesini çok zorlaştıran kararsız parametre tahminleriyle sonuçlanır.

Ben sorunları geride teknik nedenleri anlamak (ters çevirmek için mümkün olmayabilir , kötü koşullanmış vs) ama bu sorun için daha sezgisel bir (belki de geometrik?) Açıklama arıyorum.X ' XXXXX

Doğrusal regresyon bağlamında çok kutuplu olmanın neden sorunlu olduğuna dair geometrik veya belki de kolayca anlaşılabilir bir açıklama biçimi var mı?


4
Gerçekten harika bir soru. Bir şeyi anlamanın en iyi yolu çok yönlü bir açıklamadır.
Tal Galili,

1
Ayrıca ilgili soru ve görsel açıklama istatistiklerine bakın.stackexchange.com
q/70899/

Yanıtlar:


89

En basit durumda düşünün karşı gerileyen ve ve burada ve yüksek pozitif bir korelasyon vardır. O zaman üzerindeki etkisi, üzerindeki etkisinden ayırt etmek zordur, çünkü herhangi bir artış, bir artışla ilişkili olma eğilimindedir .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Buna bakmanın başka bir yolu da denklemi göz önünde bulundurmaktır. Biz geç ise , daha sonra katsayısı artıştır her birim artış için tutarken sabiti. Ama pratikte, tutmak için genellikle imkansızdır sabiti arasındaki pozitif korelasyon ve bir birim artış anlamına genellikle bazı artışın eşlik eder aynı zamanda.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Benzer ancak daha karmaşık bir açıklama, diğer çoklu bağlanma biçimleri için de geçerlidir.


20
+1 bunu daha da vurguladığı son derece patolojik vaka . ve ayırt edilemez. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 Bu cevabı beğendim, çünkü en yaygın yardım sorularından biri ve olmasının nedeni . Çıkarımın gerçekçi girdileri hesaba katması gerekir. b 2 < 0b1>0b2<0
muratoa

29

Bir keresinde suşi yiyordum ve şartsız koşulların iyi anlaşılır bir gösterimini yapabileceğini düşündüm. Birine, üslerinde iki çubuk kullanarak dokunan bir uçak göstermek istediğinizi varsayalım.

Muhtemelen çubukları birbirine dik tutarsınız. Ellerinizdeki her türlü titremenin uçaktaki etkisi, insanlara göstermeyi umduğunuzu biraz sarsmasına neden olur, ancak sizi bir süre izledikten sonra, hangi uçağı göstermek istediğinize dair iyi bir fikir edinir.

Ama diyelim ki çubukların uçlarını birbirine yaklaştırıp ellerinizin titremesini izleyin. Oluşturduğu uçak çok daha çılgınca zıplayacaktır. Hedef kitlenizin hangi uçağı göstermeye çalıştığına dair iyi bir fikir edinmek için daha uzun süre izlemek zorunda kalacak.


+1 Bunun en doğrudan soruyu cevapladığını düşünüyorum. Çünkü çok kutupluluk, yorumlamayı etkilese de. Neden bu bir mesele ki imho, tahmindeki istikrardır.
muratoa

+1 Bu yorumu (ve sadece şimdiye kadar hiç Stackoverflow tarihinde bu yorumu yapan) Snackrifice kullanıcı adı altında yayınlamak için.
stackoverflax

19

Geometrik yaklaşım, en küçük kareler projeksiyonunu kapsadığı alt alana yansıtmaktır .YX

Bir modeliniz olduğunu söyleyin:

E[Y|X]=β1X1+β2X2

Tahmin alanımız, ve vektörleri tarafından belirlenen düzlemdir ve sorun, vektörünü tanımlayacak karşılık gelen koordinatları , o düzlemde en az kare çıkıntısı .X1X2(β1,β2)Y^Y

Şimdi diyelim , yani collinear. Sonra, ve tarafından belirlenen alt uzay sadece bir satırdır ve sadece bir serbestlik derecemiz vardır. Bu yüzden, ve iki değerleri belirleyemiyoruz .X1=2X2X1X2β1β2


2
Çok uzun zaman önce ayağa kalktım, ancak cevabınızı tekrar okuduğumda, her zaman Christensen'dan gelen Karmaşık Sorulara Düzlem Cevapları sevdiğimi hatırlattı ( j.mp/atRp9w ).
chl

@chl: cool, kesinlikle kontrol edeceğim o zaman. :)
ars

14

İki kişi bir tepeye bir kaya bastırıyor. Her birinin ne kadar zorladığını bilmek istiyorsun. Onları bir araya getirdiklerinde on dakika boyunca ittiklerini ve kayanın 10 metrelik hareket ettiğini farz edin. İlk kişi bütün işi yaptı mı, ikincisi sadece sahte mi yaptı? Ya da tam tersi? Veya 50-50? Her iki kuvvet de aynı anda çalıştığından, ikisinin de gücünü ayrı ayrı ayıramazsınız. Söyleyebileceğiniz tek şey, birleşik kuvvetlerinin dakikada 1 ayak olmasıdır.

Şimdi, ilk adamın bir dakika kendini, daha sonra ikinci kişiyle dokuz dakika ittiğini ve son bir dakikayı yalnızca ikinci adamın ittiğini hayal edin. Artık her bir kişinin gücünü ayrı ayrı bulmak için ilk ve son dakikalardaki kuvvet tahminlerini kullanabilirsiniz. Yine de büyük ölçüde aynı anda çalışsalar da, biraz fark olduğu gerçeği, her biri için kuvvete ilişkin tahminleri almanızı sağlar.

Her erkeğin on dakika boyunca birbirinden bağımsız olarak itdiğini gördüyseniz, bu size kuvvetler hakkında büyük bir örtüşme olacağından daha kesin tahminler verir.

Okuyucunun bu davayı bir erkeğe yokuş yukarı, diğerini yokuş aşağı iterek (hala işe yarıyor) uzatması için bir egzersiz olarak bırakıyorum.

Mükemmel çok kutupluluk kuvvetleri ayrı ayrı tahmin etmenizi önler; multicolinearity yanında size daha büyük standart hatalar verilir.


6

Bunun hakkında düşünme biçimim gerçekten bilgi anlamında. her birinin ve nin hakkında bazı bilgileri olduğunu söyleyin . Daha uyumlu ve birbirleri ile ilgili daha fazla bilgi içeriği den ve mükemmel için korelasyon bu noktaya, benzer ya da üst üste olan ve , gerçekten aynı bilgi içeriğidir. Şimdi, ve ' açıklamak için aynı (regresyon) modeline , model şu bilgileri "paylaştırmaya" çalışır (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) ile ilgili içeren her birine ve , biraz keyfi bir şekilde. Bu bilgiyi paylaştırmanın gerçekten iyi bir yolu yoktur, çünkü bilginin herhangi bir bölümü hala toplam bilgiyi ( , ) modelde tutmaya yol açmaktadır ( bu, mükemmel bir şekilde ilişkilidir). tanımlanamayan durum (). Bu, ve bireysel katsayıları için dengesiz bireysel tahminlere yol açar , ancak nin öngörülen değerlerine birçok bakarsanız ve ve tahminleriX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, bunlar oldukça kararlı olacak.


4

Bunun için benim (çok) layman sezgisi, OLS modelinin X değişkeninde belirli bir seviyede "sinyal" e ihtiyacı olduğunu ve bunun Y için bir "iyi" tahminini verdiğini tespit etmesidir. Aynı "sinyal" birçok X'in üzerine yayılmışsa (çünkü onlar korelasyonludurlar), o zaman korelasyonlu X'lerin hiçbiri, gerçek bir tahminci olduğuna dair yeterli bir “kanıt” veremez (istatistiksel anlamlılık).

Önceki (harika) cevaplar, neden böyle olduğunu açıklamak için harika bir iş çıkarır.


3

İki kişinin işbirliği yaptığını ve bilimsel keşif gerçekleştirdiğini varsayalım. İkisi tamamen farklı kişiler olduğunda (biri teorik adam, diğeri deneyde iyidir) benzersiz katkılarını (kim ne yaptıysa) söylemek kolaydır; İkizler benzer şekilde davranıyor.


2

İki regülatör mükemmel bir şekilde ilişkilendirildiyse, katsayılarını hesaplamak mümkün olmayacaktır; Bunları hesaplayabiliyorsak neden yorumlamanın zor olacağını düşünmek faydalı olacaktır . Aslında bu, birbiriyle tam olarak ilişkilendirilmeyen değişkenleri yorumlamanın neden zor olduğunu ve aynı zamanda tamamen bağımsız olmadığını açıklar.

Bağımlı değişkenimizin New York'taki günlük balık arzı olduğunu ve bağımsız değişkenlerimizin o gün yağmur yağıp yağmurlamadığını, o gün satın alınan yem miktarını da içerdiğini varsayalım. Verilerimizi topladığımızda farketmediğimiz şey, her yağmur yağdığında, balıkçıların hiçbir yem satın almadıklarını ve her olmadığı zaman, sabit bir miktarda yem satın aldıklarıdır. Dolayısıyla, Yem ve Yağmur mükemmel bir şekilde ilişkilendirilir ve regresyonumuzu yürüttüğümüzde katsayılarını hesaplayamayız. Gerçekte, Bait ve Rain muhtemelen birbirleriyle tam olarak ilişkili değillerdir, ancak bir şekilde kendi içselliğini temizlemeden ikisini de regresör olarak dahil etmek istemeyiz.


1

Bence sahte değişken tuzak, çoklu doğrusallığın neden bir sorun olduğunu göstermek için başka bir faydalı imkan sunuyor. Modelde sürekli ve tam bir aptal takımı olduğunda ortaya çıktığını hatırlayın. Daha sonra, aptalların toplamı, sabit, çok kutuplu olmak üzere bir taneye eklenir.

Örneğin, erkekler için kukla, kadınlar için bir kukla:

yi=β0+β1Mani+β2Womani+ui

Standart yorumlanması beklenen değişiklik değiştirmesini ortaya Benzer şekilde 0 dan 1 e, beklenen değişiklik değiştirmesini ortaya 0 ile 1 arasında. , Y M bir N ı p 2 , Y W O m bir n- ıβ1YManiβ2YWomani

Fakat, neyi temsil ? Bu , yani ne erkek ne de kadın olmayan kişilerin beklenen sonucu ... neredeyse tüm veri kümeleri için karşılaşacağınızı söylemek kesinlikle güvenlidir. sormak için faydalı bir soru :-). E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.