Değişkenler arasındaki ilişkileri keşfetmek oldukça belirsizdir, ancak tahminimce bu gibi dağılım grafiklerini incelemenin daha genel hedeflerinden ikisi;
- Altta yatan gizli grupları (değişkenlerin veya vakaların) tanımlayın.
- Aykırı değerleri tanımlayın (tek değişkenli, iki değişkenli veya çok değişkenli alanda).
Her ikisi de verileri daha yönetilebilir özetler halinde azaltır, ancak farklı hedefleri vardır. Gizli grupları belirleyin, tipik olarak verilerdeki boyutları azaltır (örn. PCA aracılığıyla) ve daha sonra bu azaltılmış alanda değişkenlerin veya vakaların birlikte kümelenip kümelenmediğini araştırır. Bkz. Örneğin Friendly (2002) veya Cook vd. (1995).
Aykırı değerlerin tanımlanması ya bir modelin takılması ve modelden sapmaların çizilmesi (örneğin, bir regresyon modelinden kalıntıların çizilmesi) ya da verilerin ana bileşenlerine indirgenmesi ve sadece modelden ya da ana veri gövdesinden sapan noktaları vurgulaması anlamına gelebilir. Örneğin, bir veya iki boyuttaki kutu grafikleri tipik olarak sadece menteşelerin dışındaki noktaları gösterir (Wickham ve Stryjewski, 2013). Artıkların planlanması, parselleri düzleştirmesi gereken güzel bir özelliğe sahiptir (Tukey, 1977), bu nedenle kalan nokta bulutundaki ilişkilere dair herhangi bir kanıt "ilginç" tir. CV ile ilgili bu soru, çok değişkenli aykırı değerlerin belirlenmesi için bazı mükemmel önerilere sahiptir.
Bu kadar büyük SPLOM'ları keşfetmenin yaygın bir yolu, tüm bireysel noktaları çizmemek , ancak basitleştirilmiş bir özeti ve daha sonra belki de bu özetten büyük ölçüde sapan noktaları, örneğin güven elipsleri, tarama özetleri (bivariat) kutu grafikleri, kontur grafikleri. Aşağıda, kovaryansı tanımlayan elipsleri çizme ve doğrusal ilişkiyi tanımlamak için daha yumuşak bir pürüzsüz üst üste yerleştirme örneği verilmiştir.
(kaynak: statmethods.net )
Her iki durumda da, çok sayıda değişkeni olan gerçek bir başarılı, etkileşimli arsa muhtemelen akıllı tasnif işlemine (Wilkinson, 2005) ve değişkenleri filtrelemenin basit bir yoluna (fırçalama / bağlama yeteneklerine ek olarak) ihtiyaç duyacaktır. Ayrıca, herhangi bir gerçekçi veri kümesinin ekseni dönüştürme yeteneklerine sahip olması gerekir (örneğin, verileri logaritmik ölçekte çizin, verileri kök alarak vb. Dönüştürün). İyi şanslar ve sadece bir arsa ile yapışmayın!
Atıflar
- Cook, Dianne, Andreas Buja, Javier Cabrera ve Catherine Hurley. 1995. Büyük tur ve projeksiyon arayışı. Hesaplamalı ve Grafik İstatistik Dergisi 4 (3): 155-172.
- Dost canlısı, Michael. 2002. Düzeltmeler: Korelasyon matrisleri için açıklayıcı görüntüler. Amerikan İstatistikçi 56 (4): 316-324. PDF ön baskısı .
- Tukey, John. 1977. Keşifsel Veri Analizi. Addison-Wesley. Okuma, Kitle.
- Wickham, Hadley ve Lisa Stryjewski. 2013. 40 yıllık kutu grafikler .
- Wilkinson, Leland ve Graham Wills. 2008. Skagnostik Dağılımlar. Hesaplamalı ve Grafik İstatistik Dergisi 17 (2): 473-491.
- Wilkinson, Leland. 2005. Grafik Gramerleri . Springer. New York, NY.