Birçok değişken için dağılım grafiği matrisini keşfetme


10

Birçok parametreli bir veri kümesini analiz ediyorum (örneğin, 50-200) ve değişkenler arasındaki ilişkilere bakmakla ilgileniyorum (örneğin, 2 değişkenli dağılım grafikleri veya 2d histogramları açısından). Bununla birlikte, bu sayıda parametre için 200x200'lik bir dizi grafik çizmek mümkün görünmemektedir (yazdırıp bir duvara asmadıkça).

Öte yandan, sadece bir korelasyon matrisi yapmak 2 değişkenli ilişkiler hakkında tüm bilgileri vermez.

Birçok değişken için 2 değişkenli ilişkileri araştırmanın bir yolu (kütüphane veya iş akışı) var mı?

Özellikle başkalarına sonuçlar göstermekle ilgileniyorum (belki bazı veri ön işlemlerinden sonra). Örneğin JavaScript'te etkileşimli bir şey, bir korelasyon matrisinden seçilen alanlar için dağılım grafiği matrisini görebiliyordum.

Dağılım-komplo matrisi ile böyle bir şey demek istiyorum:

resim açıklamasını buraya girin

( pandasplotting blogundan alınmıştır ; Python / Pandas , R , D3.js , vb.


4
Neyin peşinde olduğunu netleştirmedin. Bulutu, her veri noktasını görmek ister misiniz? Tüm iki değişkenli yüzeyleri aynı anda görmek ister misiniz ?
ttnphns

@ttnphns Tüm veri noktalarını VEYA onları birleştirilmiş bir biçimde (örn. 2d histogramları) görmek istiyorum. Her şeyin bir kez olduğunu görmeme gerek yok (<15 değişken için mantıklı olduğu için 200 değil). Ve evet, sorunun biraz açık uçlu olduğunun farkındayım. Yakın uçlu bir versiyon, "Bir korelasyon matrisinde fare ilgili piksel üzerinde fareyle üzerine geldiğinde saçılma grafikleri ve histogramları göstermek için bir JS kütüphanesi var mı? Yoksa bir tane yazmalıyım? :)" sorunla başa çıkmak için bazı daha iyi iş akışları.
Piotr Migdal

Dağılım grafikleri matrisini olap küp şeklinde düzenlemek mümkündür, böylece bir seferde sadece bir veya birkaç çizim görür ve aralarında geçiş yapabilirsiniz. Ne yazık ki, grafik olap küpleri yapmak için belirli bir program veya kod bilmiyorum.
ttnphns

Yanıtlar:


7

Değişkenler arasındaki ilişkileri keşfetmek oldukça belirsizdir, ancak tahminimce bu gibi dağılım grafiklerini incelemenin daha genel hedeflerinden ikisi;

  • Altta yatan gizli grupları (değişkenlerin veya vakaların) tanımlayın.
  • Aykırı değerleri tanımlayın (tek değişkenli, iki değişkenli veya çok değişkenli alanda).

Her ikisi de verileri daha yönetilebilir özetler halinde azaltır, ancak farklı hedefleri vardır. Gizli grupları belirleyin, tipik olarak verilerdeki boyutları azaltır (örn. PCA aracılığıyla) ve daha sonra bu azaltılmış alanda değişkenlerin veya vakaların birlikte kümelenip kümelenmediğini araştırır. Bkz. Örneğin Friendly (2002) veya Cook vd. (1995).

Aykırı değerlerin tanımlanması ya bir modelin takılması ve modelden sapmaların çizilmesi (örneğin, bir regresyon modelinden kalıntıların çizilmesi) ya da verilerin ana bileşenlerine indirgenmesi ve sadece modelden ya da ana veri gövdesinden sapan noktaları vurgulaması anlamına gelebilir. Örneğin, bir veya iki boyuttaki kutu grafikleri tipik olarak sadece menteşelerin dışındaki noktaları gösterir (Wickham ve Stryjewski, 2013). Artıkların planlanması, parselleri düzleştirmesi gereken güzel bir özelliğe sahiptir (Tukey, 1977), bu nedenle kalan nokta bulutundaki ilişkilere dair herhangi bir kanıt "ilginç" tir. CV ile ilgili bu soru, çok değişkenli aykırı değerlerin belirlenmesi için bazı mükemmel önerilere sahiptir.

Bu kadar büyük SPLOM'ları keşfetmenin yaygın bir yolu, tüm bireysel noktaları çizmemek , ancak basitleştirilmiş bir özeti ve daha sonra belki de bu özetten büyük ölçüde sapan noktaları, örneğin güven elipsleri, tarama özetleri (bivariat) kutu grafikleri, kontur grafikleri. Aşağıda, kovaryansı tanımlayan elipsleri çizme ve doğrusal ilişkiyi tanımlamak için daha yumuşak bir pürüzsüz üst üste yerleştirme örneği verilmiştir.

Corrgram Elipsleri
(kaynak: statmethods.net )

Her iki durumda da, çok sayıda değişkeni olan gerçek bir başarılı, etkileşimli arsa muhtemelen akıllı tasnif işlemine (Wilkinson, 2005) ve değişkenleri filtrelemenin basit bir yoluna (fırçalama / bağlama yeteneklerine ek olarak) ihtiyaç duyacaktır. Ayrıca, herhangi bir gerçekçi veri kümesinin ekseni dönüştürme yeteneklerine sahip olması gerekir (örneğin, verileri logaritmik ölçekte çizin, verileri kök alarak vb. Dönüştürün). İyi şanslar ve sadece bir arsa ile yapışmayın!


Atıflar


1
Teşekkürler! Amacım, PCA'yı çalıştırmadan önce değişkenleri doğrusal olmayan bir şekilde ilişkilendirebileceğinden ve yeniden ölçeklendirme (veya başka bir işlem) gerektirdiğinden verileri araştırmaktır .
Piotr Migdal

Örnek fixgram elips + loess pürüzsüz olması yine de uygun olmalıdır (veya kovar. Elipsi, iki değişkenli kutu grafiği gibi başka bir ölçü poligonu ile değiştirilmelidir) ve doğrusal olmayan ilişkilendirmelerin kimliğine yardımcı olabilir. İyi bir takip sorusu, PCA (veya bunun gibi bir şey) aracılığıyla veri indirgemesinden sonra doğrusal olmayan ilişkilendirmeleri tanımlamanın mümkün olup olmadığı olabilir.
Andy W

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.