Değişkenleri dışarı atmadan lineer regresyonda yüksek çoklu-eş-doğrusallık ile kararsız tahminlerini nasıl ele alabilirsiniz ?


13

Yüksek çoklu eş-doğrusallık ile doğrusal regresyonda beta kararlılığı?

Diyelim ki doğrusal bir regresyonda, ve değişkenleri yüksek çoklu sahiptir (korelasyon 0.9 civarındadır).x1x2

katsayı kararlılığı konusunda endişeliyiz, bu nedenle çoklu-eş-doğrusallığı tedavi etmek zorundayız.β

Ders kitabı çözümü sadece değişkenlerden birini atmak olacaktır.

Ancak değişkenleri atarak yararlı bilgileri kaybetmek istemiyoruz.

Herhangi bir öneri?


5
Bir çeşit düzenleyici düzeni denediniz mi (örneğin sırt regresyonu)?
Néstor

Yanıtlar:


11

Korelasyon matrisinin tekil olduğu durumda (yani değişkenlerin yüksek korelasyonları vardır) sırt regresyonu yaklaşımını deneyebilirsiniz . Size sağlam bir tahmini sağlayacaktır .β

Tek soru, normalleştirme parametresinin nasıl seçileceği . Basit bir sorun değil, farklı değerleri denemenizi öneririm.λ

Bu yardımcı olur umarım!


2
Çapraz doğrulama ;-) ' yi seçmek için yapılacak olağan şeydir . λ
Néstor

Gerçekten (cevap ve Nestors'ın yorumu için +1) ve "kanonik formda" hesaplamaları yaparsanız ( TX'in öz ayrıştırmasını kullanarak , kerelik bırakma çapraz doğrulama hatasını en aza indirgeyerek bulabilirsiniz Newton'un yöntemiyle çok ucuza.XTXλ
Dikran Marsupial

çok teşekkürler! Herhangi bir öğretici / R nasıl çapraz doğrulama da dahil olmak üzere yapmak için notlar?
Luna

Bu kitaptaki 3. bölüme göz atın: stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf . Ridge regresyonunun uygulanması R'de bazı yazarlar tarafından yapılır (Google arkadaşınızdır!).
Néstor

2
lm.ridgeMASS paketindeki rutini kullanabilirsiniz . için bir dizi değer iletirseniz , örneğin, gibi bir çağrı , genelleştirilmiş çapraz doğrulama istatistiklerini geri alırsınız ve minimum değeri seçmek için bunları λ : ' ya karşı çizebilirsiniz . λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))fooλplot(foo$GCV~foo$lambda)
jbowman

10

Daha önce kullandığım bir ad hoc yöntemi var. Bu prosedürün bir adı olup olmadığından emin değilim ama sezgisel olarak mantıklı.

Hedefinizin modele uymak olduğunu varsayalım

Yi=β0+β1Xi+β2Zi+εi

burada iki yordayıcı - - yüksek derecede ilişkilidir. İşaret ettiğiniz gibi, ikisini de aynı modelde kullanmak, katsayı tahminlerine ve p -değerlerine garip şeyler yapabilir . Bir alternatif modele uymaktırXi,Zip

Zi=α0+α1Xi+ηi

Sonra kalan ile ilintisiz olacak X i Bir anlamda, bir parçası olarak düşünülebilir ve kutu Z i ile doğrusal bir ilişki içinde sınıflandırılır edilmez X i . Ardından, modele uymaya devam edebilirsinizηiXiZiXi

Yi=θ0+θ1Xi+θ2ηi+νi

burada birinci modelin bütün etkilerini çekeceği (ve aslında, aynı olacaktır birinci model olarak), ancak belirleyiciler artık kolineerdir.R2

Düzenleme: OP neden artıklar, kesişim dahil edildiğinde olduğu gibi kesişmeyi atlamak zaman belirleyici ile sıfır örnek bir korelasyon var neden bir açıklama istedi. Bu yorum yazmak için çok uzun, bu yüzden burada bir düzenleme yaptım. Bu türetme özellikle aydınlatıcı değildir (maalesef makul sezgisel bir argüman bulamadım) ama OP'nin ne istediğini gösteriyor :

Kesişim basit doğrusal regresyonu olarak ihmal edildiğinde , β = Σ x i y i , yaniei=yi-xixiyiβ^=xiyixi2 . Xiveeiarasındaki örnek korelasyon ¯ x e - ¯ x ¯ e ile orantılıdır;burada ¯ , çubuğun altındaki miktarın örnek ortalamasını gösterir. Şimdi bunun sıfıra eşit olmadığını göstereceğim.ei=yixixiyixi2xiei

xe¯-x¯e¯
¯

İlk önce

xe¯=1n(Σxbenyben-xben2ΣxbenybenΣxben2)=xy¯(1-Σxben2Σxben2)=0

fakat

x¯e¯=x¯(y¯-x¯xy¯x2¯)=x¯y¯-x¯2xy¯x2¯

böylece sırayla ve x i tam 0 örnek bir korelasyon olması, biz gerekmez ¯ x ¯ e olmaya 0 . Yani, ¯ y = ¯ x¯ x y'ye ihtiyacımız varebenxbenx¯e¯0

y¯=x¯xy¯x2¯

genel olarak iki rasgele veri kümesi için geçerli değildir .x,y


Bu bana kısmi regresyon çizimlerini hatırlatıyor .
Andy W

3
(X,Z)

3
XZ

1
Merhaba Makro, Mükemmel kanıt için teşekkür ederim. Evet şimdi anlıyorum. X ve artıklar arasındaki örnek korelasyonu hakkında konuştuğumuzda, örnek korelasyonunun 0 olması için kesişme teriminin dahil edilmesini gerektirir. Diğer yandan, x ve artıklar arasındaki diklik hakkında konuştuğumuzda, kesişme terimini gerektirmez. dikliği korumak için dahil edilmelidir.
Luna

1
@Luna, özellikle sırt regresyonunu kullanmaya katılmıyorum - bu benim başıma ilk gelen şeydi (önerilmeden önce cevapladım). Söyleyebileceğim bir şey, sırt regresyon tahmininin önyargılı olmasıdır, bu nedenle, bir anlamda, normal regresyondan biraz daha farklı (küçülmüş) bir miktar tahmin edersiniz, bu da katsayıların yorumlanmasını belki de daha zor hale getirir (gung olarak) alludes). Ayrıca, burada tarif ettiğim sadece temel doğrusal regresyonun anlaşılmasını gerektirir ve bazılarına daha sezgisel olarak çekici gelebilir.
Makro

4

Şimdiye kadar verilen cevapların her ikisini de seviyorum. Birkaç şey ekleyeyim.

Başka bir seçenek de değişkenleri birleştirebilmenizdir . Bu, her ikisini standartlaştırmak (yani bunları z skorlarına dönüştürmek), ortalamalarını almak ve ardından modelinizi yalnızca kompozit değişkene sığdırmak suretiyle yapılır. Aynı temel yapının iki farklı ölçüsü olduğuna inandığınızda bu iyi bir yaklaşım olacaktır. Bu durumda, hata ile kontamine olan iki ölçümünüz vardır. Gerçekten değişkeniniz için en olası gerçek değerilgilenmek aralarında olduğundan, bunların ortalamasını almak daha doğru bir tahmin verir. Öncelikle onları aynı ölçekte koymak için standartlaştırırsınız, böylece nominal sorunlar sonucu kirletmez (örneğin, bazıları Fahrenhayt ve bazıları Santigrat ise birkaç sıcaklık ölçümünü ortalama yapmak istemezsiniz). Tabii ki, zaten aynı ölçekte bulunuyorlarsa (örneğin, yüksek derecede korelasyona sahip birkaç kamuoyu yoklaması), bu adımı atlayabilirsiniz. Değişkenlerinizden birinin diğerinden daha doğru olabileceğini düşünüyorsanız, ağırlıklı bir ortalama yapabilirsiniz (belki de ölçüm hatalarının karşılıklarını kullanarak).

r>0,98birleştirdiler, ama neden rahatsız oluyorsun? Bununla birlikte, bu kritik olarak değişkenlerinizin aynı şeyin iki farklı versiyonu olması nedeniyle ilişkili olmasına bağlıdır ; eğer birbirleriyle ilişkilendirilmelerinin farklı bir nedeni varsa, bu tamamen uygunsuz olabilir.

X1X2YXZ Xx1x2XZ

Sırt regresyonunun tartışmasız daha iyi olduğuna katılıyorum, çünkü başlangıçta amaçladığınız değişkenleri kullanmanıza izin veriyor ve gerçek değerlerine çok yakın betalar vermesi muhtemel (önyargılı olmasına rağmen - daha fazla bilgi için buraya veya buraya bakın) ). Bununla birlikte, bence iki potansiyel dezavantajı da var: Bence daha karmaşık (daha istatistiksel karmaşıklık gerektiren) ve sonuç olarak ortaya çıkan modelin yorumlanması daha zor.

Belki de nihai yaklaşımın yapısal bir denklem modeline uymak olduğunu düşünüyorum. Bunun nedeni, gizli değişkenler dahil, işlevsel olduğuna inandığınız tam ilişki kümesini formüle etmenize izin vermesidir. Ancak, SEM'i bu konuda bir şey söyleyecek kadar iyi bilmiyorum, olasılıktan bahsetmekten başka. (Ayrıca, sadece iki ortak değişkenle açıkladığınız durumda aşırıya kaçacağından şüpheleniyorum.)


4
X1eX1X2=X1+eX1Y=eYX1X2YX1X2Y=X2-X1X1X2YY

Çok teşekkürler Gung! S1. Bu yaklaşım neden işe yarıyor: "Bu, hem standartlaştırılarak (yani, onları z skorlarına dönüştürerek), ortalamalarını alıp sonra modelinizi yalnızca bileşik değişkenle birleştirerek yapılır."? S2. Ridge Regresyon neden daha iyi olurdu? Q3. SEM neden daha iyi olsun? Bunun için lütfen biraz ışık tutan var mı? Teşekkür ederim!
Luna

Merhaba Luna, yardım etmekten memnunum. Aslında bunu yeniden düzenleyeceğim; @whuber başlangıçta fark ettiğimden daha haklıydı. Ek sorularınıza yardımcı olmak için daha fazla çaba göstermeye çalışacağım, ancak çok zaman alacak, bu yüzden biraz zaman alabilir. Nasıl gittiğini göreceğiz.
gung - Monica'yı eski durumuna getirin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.