Korelasyon matrisi hesaplanırken eksik değerlere sahip gözlemleri bırakmak konusunda ciddi bir sorun var mı?


12

Ben 2500 değişken ve 142 gözlem gibi büyük veri seti var.

Değişken X ve diğer değişkenler arasında bir korelasyon çalıştırmak istiyorum. Ancak birçok sütun için eksik girişler var.

Bunu "çift-tamamlanmış" argüman ( use=pairwise.complete.obs) kullanarak R'de yapmaya çalıştım ve bir sürü korelasyon çıktı. Ancak daha sonra StackOverflow'daki birisi bu makaleye bir bağlantı gönderdi: http://bwlewis.github.io/covar/missing.html ve R'deki "çift tamamlanmış" yöntemi kullanılamaz hale getiriyor.

Sorum: "İkili tamamlandı" seçeneğini kullanmanın ne zaman uygun olduğunu nasıl bilebilirim?

Geri use = complete.obsdöndüm no complete element pairs, bu yüzden ne anlama geldiğini açıklayabilirsen, bu harika olurdu.


4
Bilinmesi gereken klasik bir hikaye , Abraham Wald'ın hikayesi ve İkinci Dünya Savaşı'nda uçaklara nerede zırh ekleneceği sorusudur . Verilerinizin neden eksik olduğunu anlamanız önemlidir .
Matthew Gunn

Yanıtlar:


11

İkili tam gözlemlerde korelasyon sorunu

Açıklamanız durumunda, asıl mesele yorumlamadır. İkili tam gözlemler kullandığınız için, aslında hangi gözlemlerin eksik olduğuna bağlı olarak, korelasyonların her biri için biraz farklı veri kümelerini analiz ediyorsunuz.

Aşağıdaki örneği düşünün:

a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA) 

Veri kümesindeki üç değişken, a, b, ve c, her bazı eksik değerleri vardır. Burada değişken çiftlerindeki korelasyonları hesaplarsanız, yalnızca söz konusu değişkenlerin her ikisi için eksik değerleri olmayan vakaları kullanabilirsiniz. Bu durumda, bu araçlar size arasındaki korelasyon için sadece son 3 vaka analiz olacak ave barasındaki korelasyon için sadece ilk üç olgu bve cvb

Her korelasyonu hesaplarken tamamen farklı vakaları analiz etmeniz, ortaya çıkan korelasyon modelinin saçma görünebileceği anlamına gelir. Görmek:

> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289

Bu mantıklı bir çelişkiye benziyor --- ave bgüçlü bir şekilde pozitif korelasyonlu bve caynı zamanda güçlü bir şekilde pozitif korelasyonlu, bu yüzden siz de olumlu yönde bir ilişki olmasını bekliyorsunuz ave caslında ters yönde güçlü bir ilişki var. Pek çok analistin neden bundan hoşlanmadığını görebilirsiniz.

Whuber'dan yararlı açıklama eklemek için düzenleyin:

Argümanın bir kısmının "güçlü" korelasyonun ne anlama gelebileceğine bağlı olduğuna dikkat edin. Bu örnekte olduğu gibi ve arasında bir "zıt yönde güçlü bir ilişki" varken, "güçlü bir şekilde pozitif korelasyon" olması ave bbunun yanı sıra bve cbunun olması da mümkündür . Meselenin temel noktası, tahmini korelasyon (veya kovaryans) matrisinin pozitif-kesin olmayabilir: kişinin "güçlü" değerini bu şekilde ölçmesi gerekir.ac

Eksiklik türü ile ilgili sorun

Kendinizi düşünüyor olabilirsiniz, "Peki, sadece her bir korelasyon için mevcut durumların alt kümesinin, tam veriye sahip olsaydım alacağımın aynısını izlediğini varsaymak doğru değil mi?" Ve evet, bu doğru --- mevcut verilerin rasgele olduğu sürece , verilerinizin bir alt kümesinde bir korelasyonu hesaplamakla ilgili temel bir yanlışlık yoktur (elbette, daha küçük örneklem büyüklüğü nedeniyle hassasiyet ve güç kaybına rağmen). Herhangi bir eksikliğiniz olmasaydı orada bulunan tüm verilerin bir örneği.

Eksiklik tamamen rastgele olduğunda, buna MCAR (tamamen rastgele eksik) denir . Bu durumda, eksikliği olmayan verilerin alt kümesini analiz etmek sonuçlarınızı sistematik olarak saptırmaz ve yukarıdaki örnekte gösterdiğim somut bir korelasyon modelini elde etmek pek olası değildir (ancak imkansız değildir).

Eksikliğiniz bir şekilde sistematik olduğunda (genellikle MAR veya NI olarak kısaltılır, iki farklı sistematik eksikliğin tanımlanması), hem hesaplamalarınıza potansiyel olarak yanlılık getirme hem de genelleme yeteneğiniz açısından çok daha ciddi sorunlarınız olur. ilgilendiğiniz topluluğun sonuçları (çünkü analiz ettiğiniz örnek, tam veri kümeniz olsa bile popülasyondan rastgele bir örnek değildir).

Orada veriler eksik ve onunla nasıl başa hakkında bilgi edinmek için kullanılabilir büyük kaynakların bir yeri vardır, ama benim tavsiye Rubin geçerli: klasik , ve daha yeni makale


2
birbbcbirc

1
@whuber Teşekkürler, bu önemli bir nokta. Cevabın bu bölümünü bu açıklamayı içerecek şekilde güncelledim.
Rose Hartman

7

Büyük bir endişe, verilerin analizinizi bozacak sistematik bir şekilde eksik olup olmadığıdır. Verileriniz rastgele olmayabilir.

Bu, önceki cevaplarda gündeme getirildi, ancak bir örnek vereceğimi düşündüm.

Finans örneği: eksik getiriler düşük getiri olabilir

  • Yatırım fonlarının aksine, özel sermaye fonlarının (ve diğer özel fonların) kanunları tarafından getirilerini bazı merkezi veritabanlarına raporlaması gerekli değildir.
  • Bu nedenle önemli bir endişe, raporlamanın içsel, daha spesifik olarak bazı firmaların kötü getiri rapor etmemesidir.
  • 1nΣbenR,benR,ben

Bu durumlarda her şey mutlaka kaybolmaz (yapabileceğiniz şeyler vardır), ancak eksik olmayan veriler üzerinde naif bir gerileme (veya hesaplama korelasyonları) yürütmek, popülasyondaki gerçek parametrelerin ciddi şekilde taraflı, tutarsız tahminlerine yol açabilir.


4

Eksik verileriniz Rastgele Tamamlanmadı (MCAR) ise ikili korelasyon uygundur. Paul Allison'ın Eksik Veri kitabı nedeniyle başlamak için iyi bir yerdir.

Bunu, paketteki Little's (1988) MCAR Testini kullanarak test edebilirsiniz BaylorEdPsych.


1
Hala endişe verici bir neden var: MCAR verilerinde bile, ikili korelasyon yoluyla tahmin edilen korelasyon matrisi pozitif olarak tanımlanamayabilir.
whuber

Elbette, ancak korelasyon hakkında soru sorulursa, ortaya çıkan korelasyon matrisinin başka bir algoritmaya girdi olarak kullanımından bahsetmez. Ve örnek büyüklüğü göz önüne alındığında, MCAR zaten oldukça düşüktür.
Tim

1
Matris pozitif tanımlı değilse, geçersiz bir tahmindir. En azından bu tutarsızlıktan endişe duymalıyız. Korkarım MCAR'ın (bir eksiklik mekanizmasıdır) olasılığının örnek büyüklüğü ile nasıl ilişkili olabileceğini görmüyorum.
whuber

Asker korelasyon matrisinin tek bir sırası ile ilgileniyor. Matris pozitif tanımlı değilse, bir satırın tüm korelasyonların geçersiz olduğunu gösteren bir kanıtınız var mı? Bunun bir kanıtı görmek ve biraz bilgelik kazanmak isterim. MCAR, genel olarak, gerçek dünya verileriyle pek olası değildir. Büyük bir örneklem büyüklüğü ile Little'ın testinin gücü artar, bu nedenle MCAR'ın sıfır hipotezini reddetme şansı yüksektir. Beni burada yanlış anlamayın: Asla çok değişkenli bir yöntemin girdisi olarak kısmi veri korelasyon matrisini kullanmam, ama bu sorunun sorduğu şey bu değil.
Tim

1
Açıklığa kavuşturalım: Korelasyonların "hepsi geçersiz" olduğunu iddia etmedim. Korelasyon tahminlerinin (yani matris) toplanmasının geçersiz olabileceğini iddia ettim . Bu tartışılmazdır (kanıt gerektirmez), çünkü tek yapmanız gereken @RoseHartman'ın bu iş parçacığında zaten yapmış olduğu geçersiz bir tahminin bir örneğini sergilemektir. MCAR'ın olası olmadığı iddiasına itiraz etmeyeceğim - kişisel anlamda anlaşılması şartıyla: deneyiminizde, bildiğiniz veri türleriyle MCAR nadirdir. Bu iddiayı daha geniş bir şekilde nasıl yorumlayabileceğinizi anlamıyorum.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.