Grafiksel olarak çok sayıda veri göstermenin iyi bir yolu


15

Konut verileri için 14 değişken ve 345.000 gözlem içeren bir proje üzerinde çalışıyorum (yıl, kare görüntüleri, satılan fiyat, ikamet yeri vb.). İyi grafik teknikleri ve güzel çizim teknikleri içeren R kütüphaneleri bulmaya çalışmakla ilgileniyorum.

Zaten ggplot ve kafeste neyin iyi çalışacağını görüyorum ve bazı sayısal değişkenlerim için keman grafikleri yapmayı düşünüyorum.

İnsanlar büyük miktarda sayısal veya faktör tipi değişkenleri net, parlak ve en önemlisi kısa ve öz bir şekilde göstermek için başka hangi paketleri önerebilir?


"açık, cilalı ve en önemlisi, özlü bir şekilde" Bana ggplot2 gibi geliyor.
Brandon Bertelsen

1
Sadece R kütüphanelerini değil, aynı zamanda belirli grafik türlerini de arıyorum. Grafikler hakkındaki bilgim, dağılım, kutu, qq, histogramlar, kemanlar, çekirdek yoğunluğu tahminleri, vb. İle sınırlıdır. Veriler hakkında, fantastik olanlardan daha fazla bilgi verebilecek biraz daha belirsiz grafikler.
Christopher Aden

2
Paralel koordinatlar seslerden başka biri gibi bahseder. Boyutsallık azaltma yöntemleri de yararlı olabilir.
Tal Galili

Yanıtlar:


13

En iyi "grafik" o kadar aşikar ki henüz kimse bundan bahsetmedi: harita yap. Konut verileri temelde mekansal konuma (gayrimenkul hakkındaki eski testereye göre) bağlıdır, bu yüzden yapılacak ilk şey her değişkenin net bir ayrıntılı haritasını yapmaktır. Bunu bir milyon puanın üçte biri ile iyi yapabilmek için, sürecin kısa çalışmasını sağlayabilecek endüstriyel güçte bir CBS gerekir. Bundan sonra, tekdüzen dağılımları keşfetmek ve dağılım dağılım matrislerini ve gezici şematik kutu grafiklerini vb. veri ilişkileri ve verilerin coğrafi olarak anlamlı alt kümelere nasıl bölüneceği.


İyi fikir! Zaten tüm veri noktalarının enlem ve boylamlarım var, bu yüzden böyle bir görev nispeten temel olacaktır. Haritalar kütüphanesinin daha iyi bir şey olmadığı sürece gitmek için iyi bir yol olacağını düşünüyordum.
Christopher Aden

2
@Christopher Bunu ggplot2(özellikle ülke sınırları çizmeniz gerekmiyorsa), had.co.nz/ggplot2/coord_map.html ile de yapabilirsiniz . Aksi takdirde, maps, gmapsiyidir. Ayrıca GeoXpGRASS için bir R arayüzü var. BTW, Mondrian'ın coğrafi veriler için bir eklentisi var :)
chl

Birkaç harika öneri olduğunda en iyi yanıtı atamak zor olabilir, ancak bunun "doğru" olduğunu aklınızda tutarak doğru yön olduğunu hissediyorum. Ggplot2'yi deneyeceğim ve haritalara, GeoXp ve Mondrian'a bakacağım. Mekansal grafik fikri için teşekkürler!
Christopher Aden


Ben iyi başarı elde ettik lattice'ler levelplotve contourplot. Paket fields, quiltplotverileriniz kesinlikle bir ızgarada değilse güzel de dahil olmak üzere bazı güzel özelliklere sahiptir . Ayrıca, Tpsızgarasız verileri bir ızgaraya pürüzsüzleştirmek için güzel bir ince plaka spline işlevine sahiptir. Özel CBS yazılımlarına gelince, GRASS bir şekilde bana hiç mantıklı gelmiyor, QGIS'i tercih ediyorum.
Wayne

6

En azından keşif amacıyla bir R arayüzü olan GGobi'ye göz atmanızı tavsiye ederim . Özellikle çok sayıda gözlem ve değişkenle başa çıkmak ve bunları birbirine bağlamak için kullanışlı bir dizi grafik ekrana sahiptir. GGobi'yi Öğrenin sayfasındaki "Demo izle" bölümünün altındaki bazı videoları izleyerek başlamak isteyebilirsiniz .

Güncelleme

Yorumlarda chl tarafından önerildiği üzere Hadley Wickham'ın GGobi araçlarına bağlantılar:

  • DescribeDisplay "R'de ggobi grafiklerini yeniden oluşturmanın bir yolunu sunan R paketi"
  • clusterfly "Kümeleme sonuçlarını yüksek boyutlarda keşfedin"
  • rggobi " GGobi ile kolay arayüz sağlayan R paketi"

1
@ars GGobi deneyimini geliştirmek için Hadley'in R araçlarını ekleyelim, örn. DescribeDisplayve clusterfly.
chl

Merhaba ars, cevabımda yazdığım gibi - ggobi ile yaşadığım deneyim, büyük veri kümelerini iyi işlememesidir. Bununla ilgili başka bir deneyiminiz var mı?
Tal Galili

@Tal Sorun, R temel grafikleri için ortak olan ekran görüntüleme / oluşturma için gliflere güvenmemekten kaynaklanıyor. Bu, en son DSC konferansında ( j.mp/bpOhBH ) tartışıldı . Aslında, büyük veri kümelerinin etkileşimli görüntüsünü geliştirmek için Qt ile arka uç olarak devam eden bir proje ve yeni bir GGobi limanı var.
chl

1
@Tal: Deneyimlerim, görünümleri yenilerken / yeniden boyarken, örneğin PCP'deki ekranları yeniden düzenlemek için bir değişken eklerken veya sürüklerken oldukça yavaş olmasıdır. Yine de, büyük verilerle reklamı yapılan kadar etkileşimli olmasa da kullanılabilir. @chl: Bunu bilmek gerçekten güzel, teşekkürler!
ars

1
@ars @Tal R ( j.mp/d1AJp7 ) ve GGobi ( j.mp/cUOvfp ) için Qt arabirimindeki bağlantılar . Ayrıca Hadley'nin Github deposunu da görün!
chl

6

Aslında iki soru sorduğunuzu hissediyorum: 1) ne tür görselleştirmeler kullanılacağı ve 2) hangi R paketinin bunları üretebileceği.

Ne tür bir grafik kullanmanız gerektiğinde, çok sayıda vardır ve ihtiyaçlarınıza bağlıdır (örneğin: değişken türleri - sayısal, faktör, coğrafi vb. Ve görüntülemek istediğiniz bağlantıların türü):

  • Çok sayıda sayısal değişkeniniz varsa, bir dağılım grafiği matrisi kullanmak isteyebilirsiniz ( buraya bir göz atın )
  • Çok sayıda faktör değişkeniniz varsa, faktörler için dağılım grafiği matrisi kullanmak isteyebilirsiniz ( buraya bir göz atın )
  • Ayrıca bazı yapıyor ile gidebiliriz Paralel koordinatlar var olan çeşitli yolları R. bunu yapmak için
  • R'deki çok çeşitli grafiksel özellikler için grafik görev görünümüne bakın .

Şimdi nasıl yapılacağı ile ilgili. Birçok veri noktasıyla ilgili bir sorun, planın oluşturulmasına kadar geçen zamandır. ggplot2, iplots, ggobi çok fazla veri noktası için çok iyi değil (en azından tecrübemden). Bu durumda, R temel grafik özelliklerine odaklanmak veya verilerinizi örneklemek ve diğer tüm araçları kullanmak için buna örnek vermek isteyebilirsiniz. Veya iplots aşırı (veya Acinonyx ) geliştiren kişilerin ileri bir sürüm aşamasına geçmesini umabilirsiniz .


rflowcytVe Acinonyx ile ilgili bağlantılar için teşekkürler .
chl

BTW, rflowcytBioconductor'un son sürümleriyle kullanımdan kaldırıldı, şimdi kullanılması tavsiye ediliyor flowViz. Her neyse, her ikisi de güveniyor lattice.
chl

Çok kapsamlı bir cevap, Tal! Arsa üretim zamanı çok büyük bir mesele olmamalıdır. Grafiklerimin çoğunu temel paketle yapıyorum ve grafiklerin daha güzel görünmesi sorunu, kağıt için bir grafik kullanmaya karar verdiğimde oldu. Sayısal değişkenler için bir dağılım grafiği matrisi kullanmayı düşünmüştüm, ancak birçoğu farklı birimlerden (bazıları dolar cinsindendir, diğerleri sqft cinsinden) olduğundan, alacağım tek değerli bilgi genel trendler olacaktır, ancak ~ 8 sayısal 8x8 SPM biraz karmaşıktır.
Christopher Aden

3

Mondrian etkileşimli özellikler sağlar ve oldukça büyük veri kümelerini işler (yine de Java'dadır).

Paraview 2D / 3D viz içerir. özellikleri.


İki yeni kütüphane için teşekkürler. Bu ikisi ile temel çatışmam, raporumu basılı kopya yoluyla gönderiyorum, bu nedenle interaktif grafikler tam olarak kullanılmayabilir. Mondrian'ın grafikleri oldukça karmaşık görünüyor. Bir göz atacağım.
Christopher Aden

@Christopher Mondrian için, iplots@Tal tarafından belirtilen "eşdeğer" R sürümüne sahipsiniz. Paraview hakkında, vizinizin ekran görüntüsünü kaydetme seçeneğiniz vardır. cran.r-project.org/web/packages/DescribeDisplay/index.htmlDescribeDisplay adresinden GGobi'den dinamik görselleştirme dışa aktarmanın yoludur .
chl

-3

Alanındaki en yeni buluşları ve uygulamaları içeren Paralel Koordinatlar: Görsel Çok Boyutlu Geometri ve Uygulamaları'na dikkatinizi çekmek istiyorum .

Kitap, diğerleri arasında Stephen Hawking tarafından övüldü. Yüzeyler noktalarında normal vektörleri ile (dualite kullanılarak) tanımlanır. Hava Trafik Kontrolü (Otomatik Çarpışma Önleme - 3 ABD Patent), Çok Değişkenli Veri Madenciliği (bazılarının yüzlerce değişkenli gerçek veri setlerinde), Çok Amaçlı Optimizasyon, Proses Kontrol, Yoğun Bakım Akıllı Ekranlar, Güvenlik, Ağ görselleştirme ve son zamanlarda Büyük Veri.


5
Merhaba Alfred, siteye katıldığınız için teşekkürler, bu biraz tanıtımcı olarak çıkıyor. Belki de OP'nin veri kümesine benzeyen bir örnek var (14 değişken ve 345.000 gözlem), bir resim verebilir ve paralel koordinatların ne kadar yararlı olabileceğini gösterebilir / gösterebilirsiniz? Bu kadar çok gözlemle gördüğüm statik paralel koordinat çizelgelerinin çoğu, bir plaka üzerinde spagetti gibi görünme eğilimindedir, ancak bu kadar büyük N verilerinin nasıl anlaşılacağına dair daha iyi bir görüşünüz olduğundan şüpheleniyorum.
Andy W

Merhaba Andy, bu kadar çok gözlemle bir örneğim yok. Burada
Alfred Inselberg

Merhaba Andy, bu kadar çok gözlemle bir örneğim yok. Veri araştırması için etkileşim gereklidir. "Gizemli" hataları bulmak için selüral bir telefon şebekesinde yaklaşık 800 değişkenli ve 10.000 gözlemli bir veri seti üzerinde çalıştım. Sınıflandırıcılar kullanılarak aşamalı ve etkileşimli olarak sorumlu 11 değişken bulundu ve zaman içinde geriye doğru izlenerek hata fark edilmeden 3-4 ağda olağandışı aktivite tespit edildi.
Alfred Inselberg
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.