Kolay ve sağlam veri keşfi için yazılım


20

Elektronik tablo kargaşasıyla mücadele etme girişimlerimde, genellikle gerçek istatistik yazılımı (R, Stata ve benzeri) gibi daha sağlam araçlar için itiraz ediyorum. Son zamanlarda, sadece programlamayı öğrenmeyeceklerini belirten biri tarafından bu görüşe meydan okudum. Onlara programlama gerektirmeyen veri analizi araçları sunmak istiyorum (ancak ideal olarak daha sonra suya bir ayak parmağı daldırmaya karar verirlerse programlamaya kadar uzanır). Düz bir yüzle önerebileceğim veri keşfi için hangi paketler var?


5
@ gsk3 - ilginç bir soru. Ben bu "programaphobe" karmaşık elektronik tablolar ile uğraşmak zorunda olmadığını tahmin olurdu? belki de ideolojilerine kadar yaşamak ve elektronik tabloların kendileriyle sıkı çalışma yapmak için gönüllü olmak ister mi? :)
olasılık

@probabilityislogic: "Programaphobe" sorun yarattıklarında onlarla ilgilenir, ancak sonuçlarla başa çıkmak için bir sürü püf noktası vardır. Klasik anti-elektronik tablo argümanlarını küçük faydalar için denedim (bu tür bir çözüm düşünmeye istekli oldukları için, bazı faydalar!).
Ari B. Friedman

@ gsk3 - ah ha, bu yüzden kendi başına sorun programı değil, ama bu kişi artık "uzman" olmayacak ve alttan başlamak zorunda kalacak?
olasılık

2
@probabilityislog - Bence batık maliyetler sorunun büyük bir kısmı, evet. Bu maliyetlerin bazıları şüphesiz sosyal, bazıları ise yeni şeyler yapmanın yollarını öğrenirken zaman ve verimlilik kayıplarıdır.
Ari B. Friedman

3
Bu çizgi romanın durumun uygun bir şekilde temsil edilmesi olabileceğini düşünüyorum . Eğer bahsettiğiniz kişi programlamaya karşı ölü olarak ayarlanmışsa, bu çok güçlü bir tercih olabilir. Daha iyi bir strateji, elektronik tablo tabanlı analizin eksikliklerine işaret etmek olabilir. Örneğin değerleri girmek için yeni Excel dosyasında deneyin ve11116 ve topla (bu Excel 2007'de çalışır). O zaman hiçbir kendine saygılı istatistik paketinin herhangi bir uyarı yapmadan ve benzer bir hata yapmadan benzer bir hata sağlamayacağını açıklayın. 114
mpiktas

Yanıtlar:


7

Python'da çalışmamın% 95'ini ve geri kalanını R veya MATLAB veya IDL / PV-WAVE (ve yakında SAS) olarak programlıyorum. Ancak, sonuçların zamanının genellikle seçilen analizin büyük bir itici gücü olduğu bir ortamdayım ve bu yüzden sık sık nokta ve tıklama araçlarını da kullanıyorum. Deneyimlerime göre, tek bir dil olmadığı gibi, analitik yapmak için tek, sağlam, esnek bir GUI aracı yoktur. Genellikle aşağıdaki ücretsiz ve ticari yazılımların bir koleksiyonunu birlikte topluyorum

Ben JMP, Stata, Statistica, vb kullanmadım, ama istiyorum.

Bu araçları kullanmak, farklı GUI'leri ve birden fazla modelleme soyutlamasını öğrenmeyi içerir, bu da o zaman bir acıdır, ancak daha sonra geçici sonuçları daha hızlı elde edeyim. Ben OP ile aynı tekneyim çünkü birlikte çalıştığım insanların çoğu gerçekten akıllı olsa da, ne bir dil, ne de birden fazla GUI ve uygulamaya özel terminoloji öğrenmeyi umursamıyorlar. Bu yüzden, Excel'i iş dünyasında analizin% 90'ını kullandığını kabul etmeye istifa ettim. Buna göre, pyinex gibi şeyleri arıyorum meslektaşlarımın büyük çoğunluğunun beklediği aynı Excel sunum katmanına daha iyi analitik izin vermek için .

GÜNCELLEME: Sunum katmanı programlama-ama-yapma-Excel-ile-Do-modelleme devam tema, ben sadece bu adamın web sitesi Tufte tarzı grafikler Excel hücrelerine gömmek sunan geldi . Tek kelimeyle harika ve ücretsiz!


1
JMP'nin oldukça iyi olduğunu söyleyeceğim. Biri R konusunda çok yetenekli olsa bile, JMP'nin verilerde gezinmek ve analiz etmek için daha hızlı bir yol olduğu zamanlar vardır.
Yineleyici

8

Keşifsel (muhtemelen etkileşimli) veri analizi söz konusu olduğunda, aşağıdakilere göz atmanızı öneririm:

  • Weka , başlangıçta veri madenciliği uygulamalarını hedefler, ancak veri özetleri için kullanılabilir.
  • Mondrian , etkileşimli veri görselleştirme için.
  • Veri akışı oluşturma fikrine dayanan ve Weka ve R ile uyumlu olan KNIME .

Her üçü de verileri biçim arffveya csvbiçimde kabul eder .

Bana göre, Stata çok fazla programlama uzmanlığı gerektirmiyor. Bu bile çekiciliğinin bir parçası, aslında: Temel analizlerin çoğu, örneğin doğrusal bir modelde tahmin için belirli parametreleri özelleştirmek için iletişim kutuları ile nokta ve tıklama kullanıcı eylemleriyle yapılabilir. @ Gsk3 tarafından söylendiği gibi Rcmdr , Deducer vb. Harici GUI'leri kullandığınızda, daha az da olsa R için de geçerlidir.


Stata için +1. Nokta-n-tıklama ile tüm temelleri yapabilirsiniz, ancak nokta-n-tıklamanın oluşturduğu komutu da verir, böylece öğrenebilir / değiştirebilirsiniz. Tabii ki hücrelere formül koymasanız da, verileriyle nasıl arayüz oluşturduğunuzda elektronik tabloya benzer.
Wayne

8

Bazı insanlar programlamayı sadece bir komut satırı ifadesi girmek olarak düşünür. O zaman belki de onları cesaretlendirmede biraz kaybolursunuz. Ancak, e-tabloları zaten kullanıyorlarsa, formül girmeleri gerekir. Bunlar komut satırı ifadelerine benzer. Eğer gerçekten mantıklı ve otomatik analiz anlamında herhangi bir programlama yapmak istemedikleri anlamına gelirse, o zaman analizleri R veya Stata'da herhangi bir programlama yapmadan da yapabildiklerini söyleyebilirsiniz.

İstatistiklerini e-tabloda yapabilirlerse ... tüm yapmak istedikleri ... o zaman yapmak istedikleri tüm istatistiksel analizler R veya Stata'da 'programlama' olmadan da yapılabilir. E-tablodaki verileri düzenleyebilir ve düzenleyebilir ve daha sonra metin olarak dışa aktarabilirler. Daha sonra analiz herhangi bir programlama olmadan gerçekleştirilir.

Bazen R'ye böyle giriş yaparım. Bir e-tabloda yapabileceğiniz veri analizini yapmak için herhangi bir programlama gerekmez.

Onları bu şekilde bağlarsanız, balıkları yavaşça sarın ... :) Birkaç yıl içinde ne kadar iyi bir programcı olduklarını onlara iltifat edin.

Ayrıca, bu belgeyi meslektaşlarınıza göstermek veya en azından puanlarınızı daha iyi belirtmek için kendiniz okumak isteyebilirsiniz.


1
İyi puan, ama burada bazı uyarılar var: Excel, bir hücreye formül girerken açılan araç ipuçlarına sahiptir ve bu nedenle basit görevleri "programlamayı" kolaylaştırır. Ayrıca, çok sayıda Excel uzmanı olduğu için sıkışıp kalırsanız, yanınızdaki kişi size yardımcı olabilir. Ve Excel yüklü olarak gelir. Birini R'yi denemeye ikna etmek, onu kurmasına ve açık kaynaklı yazılımlardan nasıl yararlanacağını (ve hangi forumlarda arama yapacağını, hangisinin önyükleme paketlerinden hangisinin kullanılması gerektiğini vb. Programlama bir anlamda kolay kısımdır. Zor kısmı ekosistemdir.
Josh Hemann

Ayrıca Excel'de gerçek biçimlendirme sorunları yok ... R'de bazen bir paket xts, başka bir data.frames kullanıyor ... bu bir acemi için bir karmaşa, bu doğru
RockScience

ÖNEMLİ, veri biçimlendirmeyle ilgili sorunlar olabileceğini kabul ediyorum, ancak yanıtımın zaten bir e-tabloda yapılabilecek analiz olarak nitelendirildiğini unutmayın. Bu çok çeşitli analizler değildir ve genellikle tek bir veri formatı altında olur.
John

R ile "programlamada" Excel'den biraz daha fazla yük var ve bunlar kullanıcıları çıldırtan şeyler. R'nin bir Pivot Tablosuna benzeyen birinci sınıf bir GUI'si varsa, belki. Ama o zamana kadar ...
Ralph Winters

8

Buraya JMP için bir adım atacağım. Tercih ettiğim programlama dışı veri keşif aracımın neden birkaç nedeni var:

  1. Gerçekten iyi görselleştirme araçları. En temel EDA tipi grafikler, R kadar iyidir ve yayına hazır bir grafiğe yaklaşan bir şey üretmek için kullanımı oldukça kolaydır. Ayrıca son derece esnek görselleştirme araçlarına sahiptir, böylece tüm hikayeyi elde etmek için verilerinizi bükebilir ve bükebilirsiniz.
  2. Şaşırtıcı derecede güçlü. JMP'nin 4. sınıfımdan önce JMP'nin kutudan çıkamayacağı bir şey bulmak beni aldı. Fena değil.
  3. Scriptability. Bu benim için büyük bir şey. GUI'lerin ana zayıflığı, yaptığınız şeyi çoğaltmanın çok zor olmasıdır. JMP, GUI'yi kodlamanızı sağlar - ve bu komut dosyalarını oluşturmak güzel bir nokta ve tıklatmadır.

JMP için +1. Şimdiye kadar kullandığım en iyi temel istatistik gui.
Zach

1
Kabul edildi (1 numaralı nokta ile iyi). Bazı yönlerden, EDA maddeleri için R'den bile daha iyidir ve yinelemeli bir iş akışına güzel bir şekilde eklenebilir. Biri zaten R olmadan çalışıyorsa, JMP R eklemeden çalışmak için makul bir yoldur. R'ye de bağlanabildiğinden, bir R programcısı daha sonra JMP'ye takılarak Eloi, errr, kullanıcının devam etmesine izin veren araçlar oluşturabilir. her şeyin sadece züppe olduğuna inanmak.
Yineleyici

6

Tableau'yu veri keşfi ve görselleştirme için iyi bir araç olarak önerebilirim, çünkü sadece sürükleyip bırakarak verileri keşfedip görüntülemenizin farklı yolları nedeniyle. Grafikler oldukça keskindir ve sunum amacıyla kolayca PDF'ye çıktı alabilirsiniz. İsterseniz bazı "programlama" ile genişletebilirsiniz. Bu aracı düzenli olarak "R" ve SAS ile birlikte kullanıyorum ve hepsi birlikte iyi çalışıyor.


3

John'un dediği gibi, veri araştırması R'de çok fazla programlama gerektirmez. İşte insanlara verebileceğiniz veri araştırma komutlarının bir listesi. (Ben sadece bununla geldim; kesinlikle genişletebilirsiniz.)

Verileri içinde bulunduğu paketten dışa aktarın. (Sayısal verileri tırnak işaretleri olmadan dışa aktarmak uygundur.) Ardından R'deki verileri okuyun.

ChickWeight=read.csv('chickweight.csv')

Bir masa yap.

table(ChickWeight$Diet)

R size ne tür bir grafik vereceğini tahmin etsin. Bazen çok güzel çalışıyor.

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

Bir grup spesifik çizim fonksiyonu tek değişkenler üzerinde oldukça basit çalışır.

hist(ChickWeight$weight)

Alt kümeleri alma

plot(subset(ChickWeight,Diet=='2'))

İnsanların buna alışması durumunda SQL benzeri sözdizimi (daha fazla bilgi )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA (Elbette ikiden fazla değişkeniniz olurdu.)

princomp(~ ChickWeight$weight + ChickWeight$Time)

3

Bu bir cevaptan çok ağıt yakıyor ...

Bunun için gördüğüm en iyi yazılım , Xlisp-Stat üzerine inşa edilmiş Arc . Çok sayıda yerleşik etkileşimli grafik ve birçok istatistiksel çıkarım yeteneği ile veri keşfi için harika bir yazılımdır. Bence başka hiçbir şey veri arama ve Lisp programlama ile daha da genişletme yeteneğine yaklaşamadı. Bana göre, R'deki etkileşim on yıl sonra Arc gibi şekillerde kullanılmaya başlıyor. Ve bildiğim kadarıyla, kimse henüz bu yetenekleri Arc kadar kullanışlı bir yerde etkileşimli bir arayüz oluşturmak için kullanmadı.

Ne yazık ki, hiçbir zaman gerçekten yakalanmadı, bu yüzden geliştiriciler neredeyse hepsi R'de çalışmaya başladı; PC ve Linux / Unix sürümleri hala çalışır ve ihtiyaçlarınıza bağlı olarak denemeye değer olabilir; Mac'ler için en iyi seçenek, X11 altında Linux / Unix sürümünü denemektir, bu şekilde birkaç sistem üzerinde çalıştım. Sitede belirtilen Mac sürümü yalnızca "Klasik" Mac'lerde çalışır.

Ayrıca kısaca denediğim Mondrian'dan da bahseteceğim , ancak veri keşfi için müthiş grafik etkileşimi var gibi görünüyor, ancak (hatırladığım gibi) yetenekleri genişletmenin veya istatistiksel çıkarım yapmanın kolay bir yolu yok.


Arc'ı duymamıştı ama kontrol edecekti. Teşekkürler.
Ari B. Friedman

1
(+1) Lisp dünyasından tekrar haber almak güzel. Ben de xlispstat hayranıyım (ve Luke Tierney'in R projesinde çok aktif olduğunu takdir ediyorum).
chl

3

Bu amaç için umut verici görünen yeni bir yazılım sistemi, R'nin üzerine inşa edilmiş Deducer . Ne ​​yazık ki, yeni olarak, insanların sorabileceği soruların genişliğini henüz kapsamadığından şüpheleniyorum, ancak ayak parmağını içeriyor - insanları daha sonra karar vermeleri halinde gerçek bir pakete yönlendirmek için su kriteri

Geçmişte JMP'yi de kullandım, bu da hoş bir etkileşimi vardı. Arayüzün bazılarının bu amaçlar için çok karmaşık olabileceğinden endişeliyim. Ve ücretsiz değildir, bu da potansiyel elektronik tablo mültecilerinin bir heves denemesini zorlaştırır.


Ayrıca umut verici görünen Rattle da var .


JMP ile ilgili - Yanılmıyorsam, makul olan deneme sürümleri ve akademik lisanslar var.
Yineleyici

3

Verilerin neler içerdiğini araştırmak ve verileri temizlemek için, şimdi Açık Rafine Et olan eski Google Rafine, oldukça iyi bir GUI. Hazırlık ve temizlik için Excel gibi bir şeyden çok daha güçlü. Ardından analizleriniz için R-Commander gibi bir şeye geçin.


2

R'ye cevap veren veya onun herhangi bir "GUI'sinden" herhangi biri soruyu okumadı.

Bunun için özel olarak tasarlanmış bir program var ve buna JMP deniyor. Evet, ücretsiz bir denemeye rağmen pahalı ve öğrenciler veya üniversite personeli için inanılmaz derecede ucuz (50 $ ucuz gibi).

Veri madenciliği ve istatistiksel analiz için iş akışı tabanlı bir GUI olan RapidMiner de var. Ücretsiz ve açık kaynak.


1
@Neil Neden böyle? OP "fakat ideal olarak programlamaya kadar uzanacak ..." dedi. R neredeyse tüm ticari (örneğin, SPSS, JMP, Statistica) veya ücretsiz (Knime, Rapidminer) istatistik yazılımına takıldı ve Rserve R ile iletişim kurmak için bir arka uç olarak kullanılabilir (örneğin, genetik çalışmalar için plink yazılımı ile), ve bu amaçla kullanılır. JMP'nin Ücretsiz Deneme sürümü harici veri kümeleriyle çalışmanıza izin vermiyor, yanılıyor muyum? (İlginçtir, R'ye cevap veren hepimiz ve alternatif bir yazılım indirildi.)
chl

R'yi seviyorum ve bunu destekliyorum, ancak istatistikleri / veri madenciliğini öğrenmek isteyen ve nasıl programlanacağını bilmeyen insanlar gerçekten kullanamazlar. ve tüm guis ile oynadım ve jmp ile karşılaştırıldığında sadece korkunç. Ben sadece R jmp gibi bir gui alır gün bekliyorum, o zaman her şey iyi w evren olacak.
Neil McGuigan

-1, insanların cevaplamadan önce soruları okumaması ve R'nin neden JMP veya RapidMiner'dan daha kötü olduğu konusunda gerçek bir argüman sunmama önerisi için. Genel olarak, R'nin her şeye bir cevap olmadığını kabul ediyorum, ancak bu konunun gerçekten iğrenç olma potansiyeli ile biraz tartışmalı olduğunu unutmayın. Bu yüzden aşağı oy.
mpiktas

R harika, ama kolay değil. Başlıkta bunu istedi.
Neil McGuigan

@Neil, evet, ancak kolay ama sağlam veri keşfi diye bir şey olmadığını iddia edebilirsiniz.
mpiktas

1

Bu özel araç endüstrimde popüler (tasarımla sektöre özgü olmasa da): http://www.umetrics.com/simca

Gizli değişken tipi çok değişkenli analiz (PCA ve PLS) yapmanızı sağlar ve tüm katılımcı yorumlayıcı grafikleri / hesaplamaları ve katkı grafikleri, değişken önem grafikleri, Q2 hesaplamaları vb. Gibi sorgulama araçlarını içerir.

OLS / MLR tipi yöntemlerin uygun olmadığı yüksek boyutlu (ve genellikle yüksek derecede korelasyonlu / eşdoğrusal) endüstriyel veri setlerinde sıklıkla kullanılır (örneğin, bir tekne yükü sensöründen gelen bilgi, log bilgisi, vb.).

Tamamen GUI ortamında çalışır ve kullanıcının tek bir kod satırı yazması gerekmez. Maalesef ücretsiz değildir ve programlama yoluyla genişletilemez.


1

Bana göre, testi kendiniz kodlamazsanız, sonuçların hatalarına ve yanlış anlamalarına eğilimlisiniz.

Bilgisayar becerileri olan bir istatistikçi işe almanızı tavsiye etmelisiniz.

Her zaman aynı şeyi yapmaksa, gerçekten de işleri yapacak küçük bir araç (blackbox) kullanabilirsiniz. Ama buna hala veri araştırması denildiğinden emin değilim.


1
Duyguya az çok katılıyorum, ancak bu yüksek fikirli görüşün birçok ortamda gerçekten mümkün olduğunu düşünmüyorum.
Ari B. Friedman

1

R komutanı olarak adlandırılan John Fox'un R paketini tavsiye ederim:

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

Yeni başlayanlar için harika olan ve kullanıcının herhangi bir kod girmesini gerektirmeyen SPSS'ye (veya benzerine) benzer bir kullanıcı arayüzü oluşturur. Her şey açılır kutularla yapılır (çalışırken R konsolunu bile en aza indirebilirsiniz).

Bana göre, bu paketin avantajı, yeni başlayanlar için tamamen işlevsel bir kullanıcı arabirimine sahipken R'nin tüm büyük hesaplama yeteneklerinden yararlanabilmenizdir.


1

Başka bir kullanışlı araç, sadece Windows için olmasına rağmen, Spotfire'dır - Tek ve çift değişkenler için çeşitli histogramlara ve dağılım çizgilerine hızlı bir şekilde bakmak için oldukça yararlı buldum. Tek bir değişkeni ve basit istatistikleri temel alan çiftleri sıralamanıza yardımcı olan bir araştırma aracı - HCIL'den Hiyerarşik Kümeleme Gezgini . En ilginç değişkenleri / değişken çiftlerini bulmak güzeldir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.