İkili tam gözlemlerde korelasyon sorunu
Açıklamanız durumunda, asıl mesele yorumlamadır. İkili tam gözlemler kullandığınız için, aslında hangi gözlemlerin eksik olduğuna bağlı olarak, korelasyonların her biri için biraz farklı veri kümelerini analiz ediyorsunuz.
Aşağıdaki örneği düşünün:
a <- c(NA,NA,NA, 5, 6, 3, 7, 8, 3)
b <- c(2, 8, 3, NA,NA,NA, 6, 9, 5)
c <- c(2, 9, 6, 3, 2, 3, NA,NA,NA)
Veri kümesindeki üç değişken, a
, b
, ve c
, her bazı eksik değerleri vardır. Burada değişken çiftlerindeki korelasyonları hesaplarsanız, yalnızca söz konusu değişkenlerin her ikisi için eksik değerleri olmayan vakaları kullanabilirsiniz. Bu durumda, bu araçlar size arasındaki korelasyon için sadece son 3 vaka analiz olacak a
ve b
arasındaki korelasyon için sadece ilk üç olgu b
ve c
vb
Her korelasyonu hesaplarken tamamen farklı vakaları analiz etmeniz, ortaya çıkan korelasyon modelinin saçma görünebileceği anlamına gelir. Görmek:
> cor(a,b, use = "pairwise.complete.obs")
[1] 0.8170572
> cor(b,c, use = "pairwise.complete.obs")
[1] 0.9005714
> cor(a,c, use = "pairwise.complete.obs")
[1] -0.7559289
Bu mantıklı bir çelişkiye benziyor --- a
ve b
güçlü bir şekilde pozitif korelasyonlu b
ve c
aynı zamanda güçlü bir şekilde pozitif korelasyonlu, bu yüzden siz de olumlu yönde bir ilişki olmasını bekliyorsunuz a
ve c
aslında ters yönde güçlü bir ilişki var. Pek çok analistin neden bundan hoşlanmadığını görebilirsiniz.
Whuber'dan yararlı açıklama eklemek için düzenleyin:
Argümanın bir kısmının "güçlü" korelasyonun ne anlama gelebileceğine bağlı olduğuna dikkat edin. Bu örnekte olduğu gibi ve arasında bir "zıt yönde güçlü bir ilişki" varken, "güçlü bir şekilde pozitif korelasyon" olması a
ve b
bunun yanı sıra b
ve c
bunun olması da mümkündür . Meselenin temel noktası, tahmini korelasyon (veya kovaryans) matrisinin pozitif-kesin olmayabilir: kişinin "güçlü" değerini bu şekilde ölçmesi gerekir.a
c
Eksiklik türü ile ilgili sorun
Kendinizi düşünüyor olabilirsiniz, "Peki, sadece her bir korelasyon için mevcut durumların alt kümesinin, tam veriye sahip olsaydım alacağımın aynısını izlediğini varsaymak doğru değil mi?" Ve evet, bu doğru --- mevcut verilerin rasgele olduğu sürece , verilerinizin bir alt kümesinde bir korelasyonu hesaplamakla ilgili temel bir yanlışlık yoktur (elbette, daha küçük örneklem büyüklüğü nedeniyle hassasiyet ve güç kaybına rağmen). Herhangi bir eksikliğiniz olmasaydı orada bulunan tüm verilerin bir örneği.
Eksiklik tamamen rastgele olduğunda, buna MCAR (tamamen rastgele eksik) denir . Bu durumda, eksikliği olmayan verilerin alt kümesini analiz etmek sonuçlarınızı sistematik olarak saptırmaz ve yukarıdaki örnekte gösterdiğim somut bir korelasyon modelini elde etmek pek olası değildir (ancak imkansız değildir).
Eksikliğiniz bir şekilde sistematik olduğunda (genellikle MAR veya NI olarak kısaltılır, iki farklı sistematik eksikliğin tanımlanması), hem hesaplamalarınıza potansiyel olarak yanlılık getirme hem de genelleme yeteneğiniz açısından çok daha ciddi sorunlarınız olur. ilgilendiğiniz topluluğun sonuçları (çünkü analiz ettiğiniz örnek, tam veri kümeniz olsa bile popülasyondan rastgele bir örnek değildir).
Orada veriler eksik ve onunla nasıl başa hakkında bilgi edinmek için kullanılabilir büyük kaynakların bir yeri vardır, ama benim tavsiye Rubin geçerli:
klasik ,
ve daha yeni makale