İncelediğim çevrimiçi bir modül , orantılı verilerle asla Pearson korelasyonunu kullanmaması gerektiğini belirtir . Neden olmasın?
Veya, bazen iyi veya her zaman iyi ise, neden?
İncelediğim çevrimiçi bir modül , orantılı verilerle asla Pearson korelasyonunu kullanmaması gerektiğini belirtir . Neden olmasın?
Veya, bazen iyi veya her zaman iyi ise, neden?
Yanıtlar:
Bu, her gözlemde birkaç değişkenin 1 ile bir araya geldiği bir durum içindir. Cevabım sezgi düzeyinde olacak; bu kasıtlı (ve aynı zamanda kompozisyon verilerinin uzmanı değilim).
Daha sonra özetlediğimiz ve bu toplamın oranları olarak yeniden hesapladığımız pozitif değerli değişkenleri kullanalım (dolayısıyla sıfır korelasyonlu). Sonra,
each V summing to 1 ( 100%)
Affedersiniz? Seni anlamadım. Bireysel V üzerinde hiçbir kısıtlama koymadım, sadece bir kesir olarak. Bununla birlikte, ilk kısıtlama, örneğimin Vs'yi kesirlere dönüştürmeden önce sıfır korelasyon varsaymasıydı.
Yorumunuzun video bağlantısı, bağlamı , karışımlar olarak da adlandırılabilecek kompozisyonların bağlamıyla ayarlar . Bu durumlarda, her bir bileşenin oranının toplamı 1'e kadardır. Örneğin, Hava% 78 azot,% 21 oksijen ve% 1 diğer (toplam% 100'dür). Bir bileşenin miktarının diğerleri tarafından tamamen belirlendiği göz önüne alındığında, herhangi iki bileşenin mükemmel çok doğrusal bir ilişkisi olacaktır. Hava örneği için:
e sonra:
Yani herhangi bir iki bileşen biliyorsanız, üçüncüsü hemen bilinir.
Genel olarak, karışımlar üzerindeki kısıtlama
Şunları yapabilirsiniz hesaplamak iki bileşen arasında bir korelasyon ama değil bilgilendirici her zaman ilişkilidir gibi. Orantılı kompozisyon olarak ölçülen verileri analiz etme bölümünde kompozisyon analizi hakkında daha fazla bilgi edinebilirsiniz .
Oranlama verileri farklı alanlardan olduğunda korelasyon kullanabilirsiniz. Yanıtınızın bir LCD ekranda ölü piksellerin bir kısmı olduğunu varsayalım. Bunu, örneğin ekranın kimyasal işleme adımında kullanılan helyum fraksiyonu ile ilişkilendirmeye çalışabilirsiniz.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
anlaşılır değil. Genişletebilir misiniz?
Bu derin bir soru ve belirtilmesi gereken bazı incelikleri olan bir sorudur. Elimden geleni yapacağım, ancak bu konuda yayınlamış olmama rağmen ( Orantılılık: Göreli Veriler için Korelasyona Geçerli Bir Alternatif ) Her zaman yalnızca göreceli bilgi içeren verilerin analizi hakkındaki yeni anlayışlardan şaşkınlığa hazırım.
Bu iş parçacığına katkıda bulunanların belirttiği gibi, bir dizi bileşen bir sabite eklenmek üzere kısıtlandığında (oranlarda, yüzdelerde, görüldüğü gibi) , bileşimsel verilere uygulandığında korelasyon (bazı çevrelerde) anlamsızdır. milyonda parça vb.).
Karl Pearson bunu akılda tutarak sahte ilişki terimini ortaya attı . (Not: Tyler Vigen'in popüler Sahte Korelasyon sitesi, " korelasyon nedensellik anlamına gelir " yanlışlığı gibi sahte korelasyonla ilgili değildir .)
Aitchison'un (2003) Bölüm 1.7 Kompozisyon Verileri Analizine İlişkin Bir Kısa Kılavuz, korelasyonun neden kompozisyon verileri için uygun olmayan bir ilişki ölçütü olduğuna dair klasik bir örnek sunmaktadır (kolaylık olması açısından, bu Ek Bilgiler'de verilmiştir .
Bileşim verileri sadece bir sabitin toplamını oluşturmak için bir dizi negatif olmayan bileşen üretildiğinde ortaya çıkmaz; verilerin sadece göreli bilgi taşıdıkları zaman bileşimsel olduğu söylenir.
Sadece göreceli bilgi taşıyan verilerin korelasyonu ile ilgili asıl sorunun sonucun yorumlanmasında olduğunu düşünüyorum. Bu, tek bir değişkenle açıklayabileceğimiz bir konudur; diyelim ki dünya uluslarında "GSYİH doları başına üretilen çörek". Eğer bir ulusun değeri diğerinden daha yüksekse,
...kim söyleyebilir?
Tabii ki, insanlar bu iş parçacığı üzerinde de bahsettiğim üzere, tek edebilir hesaplamak açıklayıcı değişken olarak değişkenlerin bu tür korelasyonları. Peki bu tür korelasyonlar ne anlama geliyor?
Ben de aynı soruyu sordum. Ben biorxiv bu referans yararlı buldum :
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Orantılılık: bağıl veriler için korelasyona geçerli bir alternatif"
Bu makalenin destekleyici bilgilerinde (Lovell, David ve diğerleri; doi: dx.doi.org/10.1101/008417), yazarlar göreceli bolluklar arasındaki korelasyonların bazı durumlarda herhangi bir bilgi sağlamadığını belirtmektedir. İki mRNA ifadesinin nispi bolluğuna bir örnek verirler. Şekil S2'de, bu iki mRNA'nın mutlak değerler arasındaki korelasyonu negatif ilişkili olmasa da (yeşil noktalar ve mor noktalar), iki farklı mRNA'nın nispi bolluğu mükemmel bir şekilde negatif ilişkilidir.
Belki size yardımcı olabilir.