Veri kümesine ilk hızlı bakış


10

Lütfen cehaletimi affedin, ama ...

Kendimi bulmayı başardığım bir sürü yeni veriyle karşı karşıya olduğum bir durumda bulmaya devam ediyorum. Bu veriler genellikle şöyle görünür:

Date     Number1  Number2  Category1  Category2
20120125      11      101        Dog      Brown
20120126      21       90        Cat      Black
20120126      31      134        Cat      Brown
(...)

Genellikle ilk bakışta burada herhangi bir eğilim olup olmadığını gerçekten söyleyemem. Çeşitli sütunlar arasındaki korelasyonlar çok önemli olmayabilir, ancak olası her sütun / kategori kombinasyonu için elle bir komplo oluşturmak zorunda kalmazsam çok sevinirim.

Sütunların sayı, tarih ve kategori olarak ele alınması ve daha sonra çizilmeye devam etmesi gereken bilgilerle birlikte bir veri tablosunu kabul edecek bir araç var mı:

  • her iki sayısal sütun arasındaki korelasyonlar
  • her iki sayısal sütun arasındaki korelasyonlar, her kategori için ayrı eğilim çizgileri
  • her sayı sütununu bir zaman dizisi olarak,
  • her sayı sütununu kategoriye göre ayrılmış bir zaman dizisi olarak,
  • vb.

Sonunda bu, çoğu sadece gürültü gösterecek çok sayıda parsel üretecektir. İdeal olarak, araç grafikleri korelasyon ile puanlayabilir ve sonunda en yüksek puanlama alanlarıyla başlayan bir slayt gösterisi görüntüler. Bu, veri kümesine çok kusurlu ancak kullanışlı bir ilk bakış olacaktır.

Yani? Herkesin bunun için kullandığı bir araç var mı ve sadece bilmiyorum, yoksa bu yapmamız gereken bir şey mi?


Cevaplarınız için hepinize çok teşekkür ederim. Verilerimde bahsettiğiniz her bir aracı test etmek için zaman ayırıyorum. Testlerimden sonra bir cevap seçeceğim. Sanırım çok kötü bir tane daha
seçemiyorum

Yanıtlar:


15

@Ondrej ve @Michelle burada bazı iyi bilgiler verdiler. Başka bir yerde bahsedilmeyen bazı konuları ele alarak katkıda bulunup bulunamayacağımı merak ediyorum. Tablodaki verilerden çok fazla bilgi elde edememek konusunda kendinizi yenmezdim, tablolar genellikle bilgi sunmak için çok iyi bir yol değildir ( çapraz başvuru , Gelman ve diğerleri, Tabloları Grafiklere Dönüştürmek ). Öte yandan, yeni bir veri kümesini keşfetmenize yardımcı olacak doğru grafikleri otomatik olarak oluşturacak bir araç istemek, sizin için düşünmenizi yapacak bir araç istemek gibidir. (Bunu yanlış anlamayın, sorunuzun o kadar ileri gitmediğinizi açıkça gösterdiğini biliyorum; sadece böyle bir aracın asla olmayacağını kastediyorum.) Bununla ilgili güzel bir tartışma bulunabilir burada .

Bu şeyler söylendi, verilerinizi keşfetmek için kullanmak isteyebileceğiniz grafik türleri hakkında biraz konuşmak istedim. Soruda listelenen parseller iyi bir başlangıç ​​olabilir, ancak bunu biraz optimize edebiliriz. Başlangıç ​​olarak, değişken çiftleriyle ilişkili "çok sayıda çizim" yapmak ideal olmayabilir. Dağılım grafiği yalnızca iki değişken arasındaki marjinal ilişkiyi görüntüler . Önemli ilişkiler genellikle birden çok değişkenin bazı kombinasyonlarında gizlenebilir. Yani bu yaklaşımı güçlendirmenin ilk yolu dağılım grafiği matrisi yapmaktıreşzamanlı olarak tüm çift dağılım grafiklerini görüntüler. Dağılım grafiği matrisleri çeşitli şekillerde geliştirilebilir: Örneğin, her değişkenin dağılımının tek değişkenli çekirdek yoğunluk grafikleri ile birleştirilebilir, farklı grupları çizmek için farklı işaretler / renkler kullanılabilir ve olası doğrusal olmayan ilişkiler, yetersiz bir uyumun üst üste bindirilmesiyle değerlendirilebilir. scatterplot.matrixAr araç paketinde işlevi (örnek sayfa Yukarıda bağlantılı yarıya kadar görülebilir) güzel tüm bunları yapabilir.

Bununla birlikte, dağılım grafiği matrisleri iyi bir başlangıç ​​olsa da, yine de sadece marjinal izdüşümleri göstermektedirler. Bunun ötesine geçmeye çalışmanın birkaç yolu vardır. Birincisi, R'deki rgl paketini kullanarak 3 boyutlu grafikleri araştırmaktır . Diğer bir yaklaşım koşullu grafikleri kullanmaktır; koplotlar aynı anda 3 veya 4 değişken arasındaki ilişkilerde yardımcı olabilir. Özellikle kullanışlı bir yaklaşım, dağılım grafiği matrisini etkileşimli olarak kullanmaktır(yine de, bu öğrenmek için daha fazla çaba gerektirir), örneğin 'fırçalama'. Fırçalama, bir matrisin bir karesindeki bir noktayı veya noktaları vurgulamanızı sağlar ve bu noktalar diğer tüm karelerde aynı anda vurgulanır. Fırçayı hareket ettirerek, tüm değişkenlerin birlikte nasıl değiştiğini görebilirsiniz. GÜNCELLEME: Bahsetmeyi unuttuğum bir diğer olasılık, paralel koordinat grafiği kullanmaktır . Bu, yanıt değişkeninizi ayırt etmemede bir dezavantaja sahiptir, ancak örneğin X değişkenleriniz arasındaki korelasyonları incelemede yararlı olabilir.

Ayrıca, verilerinizi toplanma tarihine göre sıralanmış olarak incelediğiniz için de teşekkür etmek istiyorum. Veriler her zaman zamanla toplansa da, insanlar bunu her zaman yapmazlar. Bir çizgi grafiği çizmek güzeldir, ancak bunu otokorelasyon ve kısmi otokorelasyon grafikleriyle tamamlamanızı öneririm . R de, bunların işlevleri sırasıyla acfve pacf.

Tüm bunların sizin için otomatik olarak tüm arazileri yapacak bir araç verme anlamında sorunuza tam olarak cevap vermediğini biliyorum, ancak bir sonuç, aslında korktuğunuz kadar çok parsel yapmak zorunda kalmayacağınızdır. örneğin, bir dağılım grafiği matrisi yalnızca bir kod satırıdır. Buna ek olarak, R'de, kendiniz için bunun bir kısmını otomatikleştirecek bir işlev / bazı yeniden kullanılabilir kod yazmak mümkün olmalıdır (örneğin, değişkenler listesini ve tarih sırasını alan bir işlevi hayal edebiliyorum, sıralar , her biri için çizgi, acf ve pacf grafikleri içeren yeni bir pencere açılır).


Her zaman olduğu gibi mükemmel noktalar. :)
Michelle

2
(1) bayan etmeyin ggobi ve marginal.plotgelen latticeExtra paketinin.
chl

7

Her bir sayısal sütun çifti arasındaki korelasyonlar bir korelasyon matrisinde gösterilebilir. Hızlı bir değerlendirme için sadece sayısal olması gerekmez, renk kodlu olabilir. Check out corrplot R. paketi

Daha fazla analiz için, Rattle oldukça kullanışlı bir GUI aracıdır.

Stack Exchange'i "corrplot" ya da daha çok "Rattle" anahtar kelimelerini kullanarak ararsanız, bu araçların ve alternatiflerinin ele alındığı birkaç konu bulacaksınız. Gibi bu bir .

İyi şanslar!


4

@Ondrej iyi bir tavsiye verdi, bu yüzden yazılımın içe aktarılan verileri nasıl ele aldığı konusuna odaklanacağım. Karakter verisi "Kategori 1" ve "Kategori 2" ile, yazılım bunları otomatik olarak gruplar veya faktörler olarak ele alır, çünkü bu veri parçaları üzerinde matematiksel işlemler yapılamaz. Bu, bu kategorilerden herhangi bir şey girmenizin engelleneceği anlamına gelir (alternatif olarak, menü gerektiren bir sistem yerine sözdizimi veya komut satırı kullanıyorsanız denerseniz hata alırsınız).

"1 Numara" ve "2 Numara" gibi veriler için, yazılım bunları sayısal olarak okur. Yalnızca sayısal veriler içeren gruplarınız / faktörleriniz varsa, yazılımınıza bunların gruplar / faktörler olduğunu bildirmeniz gerekir.

Bazen tarihler istatistiksel yazılımlara kötü bir şekilde aktarılabilir. Verilerinizi içe aktardıktan sonra, istatistiksel yazılımınızdaki veri türünün "Tarih" için bir tür "tarih" türü gösterdiğini görmeniz gerekir. Veri türünü tarih dışında bir şey olarak görürseniz bir sorununuz vardır. Tarih olarak gösterilse bile, ayın 13. veya 25. günleri gibi günlerin olduğu bazı satırların içe aktarılmasını kontrol edin - yazılımın nasıl ayarlandığına bağlı olarak, bazen Amerikan / İngiliz tarih biçimlendirmesi içe aktarılan vidalı verilerin alınmasına neden olur , gün / ayın tersine çevrilmesi nedeniyle.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.