Etkileşimli veri görselleştirmesi ne zaman yararlıdır?


17

Yakında vereceğim bir konuşmaya hazırlanırken, yakın zamanda etkileşimli veri görselleştirme için iki büyük (Ücretsiz) araca girmeye başladım : GGobi ve mondrian - her ikisi de çok çeşitli yetenekler sunuyorlar (biraz buggy olsalar bile).

Artikülasyon konusunda yardımınızı istiyorum (hem kendime hem de gelecekteki izleyicilerime) Etkileşimli grafikleri kullanmak ne zaman yardımcı olur? Ya veri keşfi (kendimiz için) ve veri sunumu için ("müşteri" için)?

Verileri bir istemciye açıklarken, için animasyonun değerini görebiliyorum:

  • Grafikteki hangi veri noktasının ne olduğunu görmek için "tanımlama / bağlama / fırçalama" işlevini kullanma.
  • Verilerin duyarlılık analizini sunmak (örneğin: "bu noktayı kaldırırsak, alacağımız şey şudur)
  • Verilerdeki farklı grupların etkisini gösteren (örneğin: "erkekler için ve şimdi kadınlar için grafiklerimize bakalım")
  • Zamanın etkisini göstermek (veya yaşa veya genel olarak sunuma başka bir boyut sunmak)

Çünkü verileri kendimiz araştırırken üzerinde çalıştığımız bir veri kümesinde bir aykırı değeri araştırırken tanımlama / bağlama / fırçalamanın değerini görebiliyorum.

Ancak bu iki örnekten başka, bu tekniklerin ne gibi başka pratik kullanımları olduğundan emin değilim. Özellikle kendi veri keşiflerimiz için!

Etkileşimli kısmın verilerdeki farklı grupların / kümelerin farklı davranışlarını araştırmak (örneğin) için iyi olduğu söylenebilir. Ama (pratikte) böyle bir duruma yaklaştığımda, ilgili istatistiksel prosedürleri (ve post-hoc testleri) çalıştırmaktı - ve önemli bulduğumda, verileri net bir şekilde bölen renklerle çizerdim. ilgili gruplar. Gördüğüm kadarıyla, bu daha güvenli bir yaklaşım sonra veri "etrafında merak" (kolayca veri tarama yol açabilir (düzeltme için gereken çoklu karşılaştırmanın kapsamı bile net değildi).

Bu konudaki deneyiminizi / düşüncelerinizi okumaktan mutluluk duyarım.

(bu soru bir wiki olabilir - öznel olmasa da ve iyi düşünülmüş bir cevap memnuniyetle benim "cevap" işaretini kazanacaktır :))


3
En azından benim durumumda, aynı gemideyim. Mondrian'ı takdir ediyorum ve güncel tutuyorum, ancak aslında yeni bir veri kümesini keşfettiğimde, daha az etkileşimli ancak daha esnek olan R'de olma eğilimindedir. Size tam bir cevap yazmaya başladım ve gerçek deneyimlerden değil, teorik olarak konuştuğumu fark ettim.
Wayne

Yanıtlar:


8

@Whuber tarafından gösterildiği gibi, nicel veya nitel verileri uzamsal kalıplara bağlamaya ek olarak, boyuna ve yüksek boyutlu veri analizi için fırçalama ve çeşitli bağlantı çizimlerini bir araya getirerek EDA kullanımından bahsetmek istiyorum .

Her ikisi de kesinlikle bildiğiniz Dianne Cook ve Deborah F. Swayne (Springer UseR !, 2007) tarafından R ve GGobi ile Veri Analizi için Etkileşimli ve Dinamik Grafikler mükemmel kitabında tartışılmıştır . Yazarlar, Bölüm 1'de EDA ile ilgili hoş bir tartışma yaşıyorlar ve EDA'nın "bize beklenmediklerini zorlama" ihtiyacını gerekçelendirerek, John Tukey'i (s. 13) aktarıyorlar: İnteraktif ve dinamik ekranların kullanımı ne veri gözetleme ne de ön veri. denetim (örneğin, verilerin sadece grafiksel özetleri), ancak yalnızca salt hipotez tabanlı istatistiksel modellemeden önce veya tamamlayıcı olan verilerin etkileşimli bir araştırması olarak görülür.

GGobi'yi R arayüzü ( rggobi ) ile birlikte kullanmak , DescribeDisplay veya ggplot2 paketleri sayesinde Projection Pursuit (s. 26-34) ile bile ara rapor veya son yayın için statik grafiklerin nasıl oluşturulacağı sorununu da çözer .

Aynı doğrultusunda, Michael Dostu uzun değil, aynı zamanda daha yeni de büyük ölçüde vcd paketinde örneklenmiştir Kategorik Veri Analizi, veri görselleştirme kullanımını savunmaktadır vcdExtra paketi (dinamik viz dahil. Aracılığıyla rgl paketine), hangi log-lineer modelleri genişletmek için vcd ve gnm paketleri arasında tutkal görevi görür . Son zamanlarda 6. CARME konferansı, Kategorik Verilerin Görselleştirilmesindeki Gelişmeler, R'deki vcd, gnm ve vcdExtra Paketleri kullanılarak bu çalışmanın güzel bir özetini verdi .

Bu nedenle, EDA'nın, tamamen istatistiksel bir modelleme yaklaşımından önce veya ona paralel olarak , verilerin (gözlenen verilerdeki beklenmedik kalıpları açıklayabileceği anlamında) görsel bir açıklama sağladığı düşünülebilir . Yani, EDA sadece eldeki verilerin iç yapısını incelemek için yararlı yollar sağlamakla kalmaz, aynı zamanda üzerine uygulanan istatistiksel modellerin düzeltilmesine ve / veya özetlenmesine de yardımcı olabilir. Örneğin biplots'un yapmasına izin verdiği şey aslında . Bunlar, çok boyutlu analiz teknikleri olmamakla birlikte , kendi başına , onlar vererek (çok boyutlu analiz sonuçları görselleştirmek için araçları olan bir yaklaşımtüm bireyleri birlikte veya tüm değişkenleri birlikte veya her ikisini birlikte değerlendirirken ilişkilerin Faktör puanları, boyutsallığı azaltmak veya orta düzey sunumlar sağlamak için orijinal metrik yerine sonraki modellemede kullanılabilir.

Kenar notu

Eski moda olma riski altında, zaman zaman xlispstat( Luke Tierney ) kullanıyorum . Şu anda temel R grafiklerinde bulunmayan etkileşimli ekranlar için basit ama etkili işlevlere sahiptir. Clojure + Incanter (+ Processing) uygulamasındaki benzer özelliklerin farkında değilim.


8

Grafiklerin dinamik bağlantısı, keşifsel uzamsal veri analizi veya ESDA için doğal ve etkilidir . ESDA sistemleri tipik olarak bir veya daha fazla kantitatif haritayı ( choropleth haritaları gibi ) alttaki verilerin tablo görünümleri ve istatistiksel grafikleri ile ilişkilendirir. Bu tür bazı yetenekler, yaklaşık 15 yıldır birkaç masaüstü GIS sisteminin bir parçası olmuştur, özellikle ArcView 3 (durdurulan bir ticari ürün). Ücretsiz GeoDa yazılımı, uzamsal veri keşfi ve istatistiksel analiz için tasarlanmış bir ortamda bu özelliklerden bazılarını sağlar. Kendine özgü bir arabirim ve cilasız grafiklere sahip, ancak oldukça hatasız.

EDA'nın bu kullanımı, istatistiksel testlerin etkileşimli keşiften daha iyi olabileceği yönündeki itirazı engeller, çünkü birçok (en çok?) Durumda net bir istatistiksel model yoktur, belirgin (veya hatta uygun) istatistiksel test yoktur ve hipotez testi genellikle önemsizdir: insanların neler olduğunu , nerede oluştuğunu görmeleri ve değişkenler arasındaki istatistiksel ilişkileri mekansal bir bağlamda gözlemlemeleri gerekir . Tüm veri analizleri resmi prosedürler değildir ve hatta bunlardan oluşmamalıdır!


Merhaba Whuber. ESDA örneğiniz harika bir örnektir, teşekkürler! Siz (veya başkaları) resmi prosedürlerin ne zaman daha az alakalı olduğuna dair başka örnekler önerebilirseniz - bu en yararlı olacaktır.
Tal Galili

7

Benim için etkileşimli görselleştirme sadece kendi keşiflerim için veya çok uygulamalı bir müşteriyle çalışırken faydalıdır. Son bir sunumla uğraşırken, en iyi sonucu veren statik grafiği seçmeyi tercih ederim. Aksi takdirde müşteriler gee-whiz faktörünün dikkatini dağıtabilirler.

Bundan elde ettiğim en büyük fayda, bir çözümü programlamayı bıraktığımda sahip olduğumdan çok daha fazla incelememi serbest bırakan bir hız düzeyidir. JMP, benim en sevdiğim araçlardan biri çünkü istediğim şeylerin çoğunu tek bir arayüze entegre ediyor. Bence iyi bir istatistik programcısı olan çoğu insan, gerçekten iyi olmak için çok kısa bir süre için JMP (veya GGobi, vb.) Özellikle JMP, sadece menülere bakarak bildiğiniz izlenimi verecektir. Ancak, tüm gücünü ortaya çıkarmak için kılavuzda çalışmak gerçekten gereklidir.

Yine de bu hız seviyesi hakkındaki temel kaygımdan bahsettiniz: p-değerlerinizin ne anlama geldiğine dair hiçbir fikriniz yok. Sadece birkaç dakika içinde yüzlerce ilişkiyi görsel olarak inceleyebilirsiniz. Her şeyden sonra hipotez testi yapmak tamamen yanıltıcıdır, ancak insanların bunu her zaman yaptığını görüyorum.

GGobi'de sevdiğim bir özellik, yüksek boyutlu bir alanda ne tür bir desen aradığınızı belirlediğiniz ve daha sonra arkanıza yaslanıp bu hedefi “takip etmesini” izlediğiniz projeksiyon arayışıdır. Harika şeyler!


2
+1. Son sunumlar hakkındaki sözler, dikkate değer bir örnek olarak, Hans Rosling'in ünlü 2006 TED konuşmasını ( ted.com/talks/… ) akla getiriyor . Re: "çok daha fazlasını" incelemeye ilişkin nokta, bir ifadedeki avukatın bana ifademi yedekleyen verileri nasıl incelediğimi ve işin etkileşimli olarak yapıldığını öğrendiğinde yüzünün nasıl düştüğünü sorduğunu hatırlattı. bu nedenle hiçbir şey basılmamış veya kaydedilmemiştir (sonra mahkeme celbi, inceleme ve itiraz etmeye çalışabilir). ;-)
whuber

JMP, orada en güzel istatistik uygulamalarından biridir. İstatistikçiler, sadece müşterilerini etkilemek için kesinlikle nasıl kullanılacağını öğrenmelidir. Bir okul / kolej / üniversitede bir öğrenci veya personel iseniz pahalı, ama ucuz
Neil McGuigan
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.