Hangi korelasyon bir matrisi tekil kılar ve tekillik veya tekilliğe yakınlığın etkileri nelerdir?


66

Farklı matrisler üzerinde bazı hesaplamalar yapıyorum (çoğunlukla lojistik regresyonda) ve genellikle "Matrix tekildir" hatasını alıyorum, burada geri dönüp korelasyonlu değişkenleri silmeliyim. Buradaki sorum, "yüksek" korelasyonlu bir matris olarak ne düşünürsünüz? Bu sözcüğü temsil etmek için bir eşik değer korelasyon var mı? Bir değişkenin bir başkasıyla 0.97 olması halinde, bu bir matrisin tekil hale getirilmesi için "yüksek" bir değer midir?

Sorun çok basitse özür dilerim, bu konuyla ilgili herhangi bir referans bulamadım (herhangi bir referans için bir ipucu büyük bir artı olacaktır!).


2
İpucu: sitemizi VIF ve korelasyon için arayın .
whuber

Kesinlikle bir göz olacak. Şerefe.
Hata404

2
@ ttnphns aşağıda sıra dışı bir açıklamada bulundu (sürpriz yok, bu onun uzmanlığı gibi görünüyor). Tekil bir veri matrisi alabileceğiniz basit bir örnek için, cevabımı burada okumaya yardımcı olabilir: regresyonda nitel değişkenli kodlama, tekilliğe yol açan kalitatif değişken .
gung - Reinstate Monica

Gerçekten de yaptı !! Aslında beni saatlerce kafa karışıklığıyla okudum. @Gung örneğiniz için teşekkürler. Çok yardımcı oldular.
Hata404

Yanıtlar:


100

Tekil matris nedir?

Bir kare matris tekildir, yani, orantılı olarak birbiriyle ilişkili olan satırlar veya sütunlar içeriyorsa determinantı sıfırdır; Başka bir deyişle, satırlarından (sütunlarından) bir veya daha fazlası, kombinasyonun sabit bir terimsiz olduğu satırlarının (sütunlarının) hepsinin veya bir kısmının doğrusal bir kombinasyonu olarak tam olarak açıklanabilir.

3×3Acol3=2.15col1Arow2=1.6row14row3Amatris de tekildir, çünkü herhangi bir sütun o zaman diğer sütunların doğrusal bir birleşimidir. Genel olarak, bir kare matrisin herhangi bir satırının (sütunu) diğer satırların (sütunların) ağırlıklı bir toplamı olması durumunda, ikincisinin herhangi biri de diğer satırların (sütunların) ağırlıklı toplamıdır.

Tekil veya yakın tekil matriks çoğu zaman “şartlandırılmış” matris olarak adlandırılır, çünkü birçok istatistiksel veri analizinde sorun sunar.

Hangi veriler değişkenlerin tekil korelasyon matrisini üretir?

Yukarıda açıklanan tekil matrisin korelasyonu veya kovaryans matrisinin olması için hangi çok değişkenli verilerin benzemesi gerekir? Değişkenler arasında doğrusal karşılıklılıklar olduğu zamandır. Bazı değişkenler diğer değişkenlerin tam bir doğrusal birleşimi ise, sabit terim izin verildiğinde değişkenlerin korelasyon ve kovaryans matrisleri tekil olacaktır. Bu matris içerisinde sütunlar arasında gözlenen bağımlılık aslında , değişkenlerin merkezlenmesinden (gözlemleri 0'a getirilmiş) veya standartlaştırılmışsa (kovaryans matrisi yerine korelasyon demek istiyorsak) gözlemlenen verilerdeki bağımlılıklar arasındaki bağımlılık ile aynıdır .

Değişkenlerin korelasyon / kovaryans matrisinin tekil olduğu bazı sık sık özel durumlar: (1) Değişkenlerin sayısı, vakaların sayısına eşit veya daha büyüktür; (2) İki veya daha fazla değişken bir sabite kadar toplar; (3) İki değişken aynıdır veya sadece ortalama (seviye) veya varyans (ölçek) bakımından farklılık gösterir.

Ayrıca, bir veri setindeki yinelenen gözlemler matrisi tekilliğe doğru yönlendirecektir. Bir vakayı klonladığınız zaman, tekillik olur. Bu nedenle, eksik değerlerin bir tür değerlendirmesini yaparken, verilere bir miktar gürültü eklemek her zaman faydalıdır (hem istatistiksel hem de matematiksel görünümden).

Geometrik collinearity olarak tekillik

Geometrik bakış açısında, tekillik (çok) eşdoğrusallıktır (veya "eşlik"): uzayda vektörler (oklar) olarak gösterilen değişkenler, boyutsuzluk alanında değişken sayısından daha küçük bir alandadır - küçültülmüş bir alanda. (Bu boyutluluk, matrisin sırası olarak bilinir ; matrisin sıfır olmayan özdeğerlerinin sayısına eşittir .)

Daha uzak veya "aşkın" bir geometrik görünüşte, tekillik veya sıfır kesinlik (sıfır özdeğerlik değeri), matrisin pozitif kesinliği ile pozitif olmayan kesinliği arasındaki bükülme noktasıdır. Ne zaman vektörler-değişkenlerden bazıları (ki olduğunu onlar "mükemmel yayılan" "birleşirler" ya da değil böylece - korelasyon / kovaryans matrisi) bile azaltılmış Öklid uzayında yatan "ötesine" Öklid artık uzay, pozitif olmayan kesinlik görünür yani, korelasyon matrisinin bazı özdeğerleri negatif olur. (Pozitif olmayan kesin matris, yani burada gramer olmayanlar hakkında bilgi edinin .) Pozitif olmayan kesin matris, bazı istatistiksel analiz türleri için de " şartsızdır ".

Regresyonda gizli olma: geometrik bir açıklama ve imalar

X1X2YYeYYb1b2

görüntü tanımını buraya girin

X1X2Yeresmin üzerine çizilen bu (bir yordayıcı) regresyondan. Eşitlikten kurtulmak için değişkenleri düşürmenin yanı sıra başka yaklaşımlar da vardır.

görüntü tanımını buraya girin

X1X2

görüntü tanımını buraya girin

X1X2X1X1X2o kadar koreledir ki, aynı popülasyondan farklı örneklerde çok farklı düzlem X bekliyoruz. X düzlemi farklı olduğu için, tahminler, R-kare, artıklar, katsayılar - her şey de farklılaşır. X düzleminin 40 derecelik bir yere sallandığı resimde çok iyi görülüyor. Böyle bir durumda, tahminler (katsayılar, R-kare vb.) Çok güvenilmezdir ; bu, büyük standart hatalarıyla ifade edilir. Buna karşılık, collinear olmayan uzak tahmincilerle tahminler güvenilirdir, çünkü yordayıcılar tarafından yayılan alan, verilerin örnekleme dalgalanmalarına karşı dayanıklıdır.

Tüm matrisin bir fonksiyonu olarak kalıcılık

İki değişken arasındaki yüksek bir korelasyon bile, 1'in altındaysa, tüm korelasyon matrisini tekil hale getirmez; diğer dinlenmelere de bağlı. Örneğin bu korelasyon matrisi:

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

.00950Pek çok istatistiksel analizde uygun görülmesi için 0'dan henüz farklı olan determinantı vardır. Ancak bu matris:

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

belirleyici .00010, 0'a yakın bir dereceye sahip .

Gizlilik teşhisi: daha fazla okuma

Regresyonlar gibi istatistiksel veri analizleri, bazı değişkenleri veya vakaları analizden çıkarmayı veya diğer iyileştirme araçlarını üstlenmeyi düşünecek kadar güçlü bir ortaklığa sahip olmayı tespit etmek için özel endeksleri ve araçları içerir. Lütfen "eşliklilik teşhisi", "çok kutupluluk", "tekillik / koleksiyon toleransı", "durum endeksleri", "varyans ayrışma oranları", "varyans enflasyon faktörleri (VIF)" için arama yapın (bu site dahil).


3
Bu ayrıntılı açıklama için teşekkür ederiz. Bu, bu konuyu anlamaya çalışan herkes için mükemmel bir taslaktır. Önerdiğiniz başlıklar hakkında daha fazlasını okuyacağım. Bu çok takdir edilir :)
Hata404

3
Büyük açıklama, yaptığınız ilaveler için tekrar teşekkür etmek zorunda kalacağım. Gerçekten çok bilgilendirici.
Hata404

4
Geometrik açıklamalar ve ilgili şekiller bu konuyu anlamak için gerçekten faydalıdır.
gung - Reinstate Monica

1
Bunun çok eski bir yazı olduğunu görüyorum ... ama @ttnphns ile o geometrik grafikleri ne yaptığınızı bilmek isterdim ... bir yandan MS Paint bile olmuş gibi görünüyor, ama onlar sadece çok iyi
Paul

@Paul ne dedi !!!
abalter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.