Oran verileri üzerinde Pearson korelasyonu yapmak neden TAMAM değildir?


10

İncelediğim çevrimiçi bir modül , orantılı verilerle asla Pearson korelasyonunu kullanmaması gerektiğini belirtir . Neden olmasın?

Veya, bazen iyi veya her zaman iyi ise, neden?


3
Bunu ne diyor ve hangi bağlamda? Çok sınırlı bir durumdan bahsetmedikçe "Asla" çok güçlü gözükmüyor. Kim yazmış olursa olsun yanlış olabilir, ama bağlam olmadan nasıl tahmin edebiliriz?
Glen_b

2
Çevrimiçi modül özeldir ve bağlantı kuramıyorum. Ancak, aynı şeyi belirten bir video buldum: australianbioinformatics.net/the-pipeline/2013/3/19/… . Hem gördüğüm modül hem de bu video, korelasyon oranlarının kabul edilebilir olduğu herhangi bir bağlam olmadığını göstermektedir.
user1205901 - Monica

4
"Asla" çok güçlü. Oranları içeren korelasyon katsayılarını, özellikle küçük sayılara dayananları yorumlama konusunda temkinli olmak için nedenler vardır. Ancak bu nedenleri destekleyen aynı analiz, oranların büyük sayılara dayandığı ve oranların veya 1'den "yeterince uzak" olduğu zaman, korelasyon katsayılarının sorunlu olmadığını göstermektedir. Ayrıca, herhangi bir eşleştirilmiş veri kümesi (her iki bileşenin varyasyon gösterdiği) için bir korelasyon katsayısı her zaman bir özet (tanımlayıcı) istatistik olarak rapor edilebilir . 01
whuber

Yanıtlar:


6

Bu, her gözlemde birkaç değişkenin 1 ile bir araya geldiği bir durum içindir. Cevabım sezgi düzeyinde olacak; bu kasıtlı (ve aynı zamanda kompozisyon verilerinin uzmanı değilim).

Daha sonra özetlediğimiz ve bu toplamın oranları olarak yeniden hesapladığımız pozitif değerli değişkenleri kullanalım (dolayısıyla sıfır korelasyonlu). Sonra,

  • 1
  • 1/21/20.5
  • 1/31/30.333
  • 0

Tamam, ama faiz V1, V2 çiftlerinde, her V 1'e (% 100) toplanır, ancak her bir kesir hariç her bir V için herhangi bir kısıtlama yoktur.
Nick Cox

each V summing to 1 ( 100%)Affedersiniz? Seni anlamadım. Bireysel V üzerinde hiçbir kısıtlama koymadım, sadece bir kesir olarak. Bununla birlikte, ilk kısıtlama, örneğimin Vs'yi kesirlere dönüştürmeden önce sıfır korelasyon varsaymasıydı.
ttnphns

Her V'in 1'e ("dikey olarak") karşılık gelen değerleri olduğunu mu demek istediniz? Hayır, değişkenler arasında "yatay olarak" demek istedim. Ancak maalesef OP sorularındaki noktayı aydınlatamadı. Ben de alırken aldım.
ttnphns

Evet; yani genellikle burada ne anlama geldiğini düşünüyorum, ama soru özellikle net değil.
Nick Cox

1
@ttnphns Ben asla Pearson korelasyon asla oran olarak ölçülen iki değişken yapmak gerektiğini ifade gördüm. 'Asla' kelimesini vurgulamak için OP'yi düzenleyerek bunu daha açık hale getirmeye çalıştım. Video aynı ifadeyi başlığında yapar ("Orantıları ilişkilendirmeyin!"), Ancak bunu yalnızca kompozisyon verileri bağlamında tartışırlar. Bağlamı kasıtlı olarak tanımsız bıraktım çünkü kaynağım Pearson korelasyonlarının herhangi bir bağlamda orantı verileri üzerinde kullanılmaması gerektiğini belirtti. Ancak, sorumun cevabı şöyledir: "Bazı bağlamlar dışında oranların ilişkilendirilmesi iyidir."
user1205901 - Monica

10

Yorumunuzun video bağlantısı, bağlamı , karışımlar olarak da adlandırılabilecek kompozisyonların bağlamıyla ayarlar . Bu durumlarda, her bir bileşenin oranının toplamı 1'e kadardır. Örneğin, Hava% 78 azot,% 21 oksijen ve% 1 diğer (toplam% 100'dür). Bir bileşenin miktarının diğerleri tarafından tamamen belirlendiği göz önüne alındığında, herhangi iki bileşenin mükemmel çok doğrusal bir ilişkisi olacaktır. Hava örneği için:

x1+x2+x3=1

e sonra:

x1=1x2x3

x2=1x1x3

x3=1x1x2

Yani herhangi bir iki bileşen biliyorsanız, üçüncüsü hemen bilinir.

Genel olarak, karışımlar üzerindeki kısıtlama

i=1qxi=1

xi

Şunları yapabilirsiniz hesaplamak iki bileşen arasında bir korelasyon ama değil bilgilendirici her zaman ilişkilidir gibi. Orantılı kompozisyon olarak ölçülen verileri analiz etme bölümünde kompozisyon analizi hakkında daha fazla bilgi edinebilirsiniz .

Oranlama verileri farklı alanlardan olduğunda korelasyon kullanabilirsiniz. Yanıtınızın bir LCD ekranda ölü piksellerin bir kısmı olduğunu varsayalım. Bunu, örneğin ekranın kimyasal işleme adımında kullanılan helyum fraksiyonu ile ilişkilendirmeye çalışabilirsiniz.


Görüyorum - yanlışlıkla bestelerin sadece bir örnek olduğunu düşündüm. Dolayısıyla, kompozisyonların bir korelasyonu 'zorlamak' zorunda olduğu bir durumunuz yoksa, korelasyon oranlarının genellikle sorunsuz olduğunu söylemek doğru olur mu?
user1205901 - Monica

Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationshipanlaşılır değil. Genişletebilir misiniz?
ttnphns

Ben de bu cevabı anlamıyorum. 3 değişkenli örnekte, her biri İKİ diğerleri tarafından "belirlenir", ancak Pearson korelasyonu bir değişkeni diğerine göre analiz eder. Yani, örneğin, nitrojene karşı oksijene bakarsanız, bir (azot, oksijen) veri setine [(0.78, 0.21), (0.20, 0.41), (0.44, 0.44)] sahip olabilirsiniz ve geçerli bir korelasyon katsayısı yapabilirsiniz Bu veriler üzerinde hesaplama (ve kesinlikle eş doğrusal değildir). Pearson korelasyon katsayısı orada "diğer" bilmiyor ya da umursamıyor ...
Jason C

3
Bir tür meta-yorum olarak, erişilemez materyallerin herhangi bir istatistiksel nokta için otorite olarak gösterildiğini görmeyi beklemezdim, bunu önerdiğinizi değil. Yani, bir seviyede basit: kompozisyon veri analizi üzerine, nereye bakılacağına dair bir literatür var; Ben uzman değilim, bu yüzden korelasyonda en yetkili olanı söyleyemem, ama içgüdüm uyarının abartılı olduğu. Korelasyonun tanımlayıcı kullanımı yararlı olabilir. Sadece çıkarımlar, toplamlar üzerindeki kısıtlama ile karmaşıktır.
Nick Cox

Aynı sayıda piksele sahip LCD ekranlardan ölçümler toplasaydık ve süreçteki gaz basıncı sabit kalsaydı "ölü piksellerin oranı" iyi olurdu diye düşünüyorum. Fakat bu oranların paydalarının değişmesine izin vermeye başladığınızda, helyumun etkisinin ne olduğunu kim söyleyebilir?
David Lovell

5

Bu derin bir soru ve belirtilmesi gereken bazı incelikleri olan bir sorudur. Elimden geleni yapacağım, ancak bu konuda yayınlamış olmama rağmen ( Orantılılık: Göreli Veriler için Korelasyona Geçerli Bir Alternatif ) Her zaman yalnızca göreceli bilgi içeren verilerin analizi hakkındaki yeni anlayışlardan şaşkınlığa hazırım.

Bu iş parçacığına katkıda bulunanların belirttiği gibi, bir dizi bileşen bir sabite eklenmek üzere kısıtlandığında (oranlarda, yüzdelerde, görüldüğü gibi) , bileşimsel verilere uygulandığında korelasyon (bazı çevrelerde) anlamsızdır. milyonda parça vb.).

Karl Pearson bunu akılda tutarak sahte ilişki terimini ortaya attı . (Not: Tyler Vigen'in popüler Sahte Korelasyon sitesi, " korelasyon nedensellik anlamına gelir " yanlışlığı gibi sahte korelasyonla ilgili değildir .)

Aitchison'un (2003) Bölüm 1.7 Kompozisyon Verileri Analizine İlişkin Bir Kısa Kılavuz, korelasyonun neden kompozisyon verileri için uygun olmayan bir ilişki ölçütü olduğuna dair klasik bir örnek sunmaktadır (kolaylık olması açısından, bu Ek Bilgiler'de verilmiştir .

Bileşim verileri sadece bir sabitin toplamını oluşturmak için bir dizi negatif olmayan bileşen üretildiğinde ortaya çıkmaz; verilerin sadece göreli bilgi taşıdıkları zaman bileşimsel olduğu söylenir.

Sadece göreceli bilgi taşıyan verilerin korelasyonu ile ilgili asıl sorunun sonucun yorumlanmasında olduğunu düşünüyorum. Bu, tek bir değişkenle açıklayabileceğimiz bir konudur; diyelim ki dünya uluslarında "GSYİH doları başına üretilen çörek". Eğer bir ulusun değeri diğerinden daha yüksekse,

  • donut üretimi daha yüksek mi?
  • GSYİH'si düşük mü?

...kim söyleyebilir?

Tabii ki, insanlar bu iş parçacığı üzerinde de bahsettiğim üzere, tek edebilir hesaplamak açıklayıcı değişken olarak değişkenlerin bu tür korelasyonları. Peki bu tür korelasyonlar ne anlama geliyor?


3

Ben de aynı soruyu sordum. Ben biorxiv bu referans yararlı buldum :

Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Orantılılık: bağıl veriler için korelasyona geçerli bir alternatif"

Bu makalenin destekleyici bilgilerinde (Lovell, David ve diğerleri; doi: dx.doi.org/10.1101/008417), yazarlar göreceli bolluklar arasındaki korelasyonların bazı durumlarda herhangi bir bilgi sağlamadığını belirtmektedir. İki mRNA ifadesinin nispi bolluğuna bir örnek verirler. Şekil S2'de, bu iki mRNA'nın mutlak değerler arasındaki korelasyonu negatif ilişkili olmasa da (yeşil noktalar ve mor noktalar), iki farklı mRNA'nın nispi bolluğu mükemmel bir şekilde negatif ilişkilidir.

Belki size yardımcı olabilir.


2
Öneriniz için teşekkürler. Bunu netleştirmedim. Yazarlar bu çalışmanın bilgisini desteklerken (Lovell, David ve ark.; Doi: dx.doi.org/10.1101/008417 ), göreceli bolluklar arasındaki korelasyonların bazı durumlarda herhangi bir bilgi sağlamadığını belirtmektedir. İki mRNA ifadesinin nispi bolluğuna bir örnek verirler. Şekil S2'de, iki farklı mRNA'nın nispi bolluğu, bu iki mRNA'nın mutlak değerlerde korelasyonu negatif olmasa da (yeşil noktalar ve mor noktalar) mükemmel negatif ilişkilidir.
dava

@ shu belki de bu makalenin neden benzer sorunlarda yardımcı olduğunu ve özetlediğini söyleyebilirsin? Bağlantı yapıştırmak bir cevap değildir , bu yüzden lütfen biraz daha ayrıntılandırın. Bunun nedeni ayrıca bağlantıların ölmesi ve cevabınızın gelecekte birisine yardımcı olmasını istiyorsanız, bunu kendi kendine tutarlı hale getirmenizdir. Elbette cevabınıza ek olarak referanslar vermek iyi bir alışkanlıktır.
Tim
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.