Büyük veri kümelerini anlamak için hangi başlangıç ​​adımlarını kullanmalıyım ve hangi araçları kullanmalıyım?


10

Dikkat: Makine öğrenimi söz konusu olduğunda tam bir acemiyim ama öğrenmeye hevesliyim.

Büyük bir veri setim var ve içinde desen bulmaya çalışıyorum. Veriler arasında, bilinen değişkenlerle veya verilerde yer alan ancak henüz fark etmediğim değişkenlerle gerçekte değişkenler / ilgili olan korelasyon olabilir / olmayabilir.

Bunun veri analizi dünyasında tanıdık bir sorun olacağını tahmin ediyorum, bu yüzden birkaç sorum var:

  1. 'Gümüş kurşun', tüm bu verileri bir istatistik / veri analiz programına atmak ve ilişkileri bulmaya çalışan bilinen / bilinmeyen kalıpları arayan verileri ezmek olacaktır. SPSS uygun mu, yoksa daha uygun olabilecek başka uygulamalar da var.

  2. R gibi bir dil öğrenmeli ve verileri manuel olarak nasıl işleyeceğimi anlamalıyım. Verileri neyin ve nasıl analiz edeceğimi manuel olarak belirtmek zorunda olduğum için bu ilişki bulmaktan vazgeçmez mi?

  3. Profesyonel bir veri madencisi bu probleme nasıl yaklaşır ve hangi adımları atar?

Yanıtlar:


11

Sorularınızı cevaplamaya çalışacağım, ancak "büyük veri kümesi" terimini kullanmanın yanıltıcı olduğunu, "büyük" göreceli bir kavram olduğunu belirtmek için önce . Daha fazla ayrıntı sağlamanız gerekiyor. Teklif verileriyle ilgileniyorsanız , bu gerçek büyük olasılıkla veri analiziniz için tercih edilen araçların , yaklaşımların ve algoritmaların seçimini etkileyecektir . Umarım veri analiziyle ilgili aşağıdaki düşüncelerim, alt sorularınızı ele alır. Puanlarımın numaralandırılmasının alt sorularınızın numaralandırmasıyla eşleşmediğini lütfen unutmayın. Ancak, genel veri analizi iş akışını , en azından nasıl anladığımı daha iyi yansıttığına inanıyorum .

1) Öncelikle, en azından bir çeşit kavramsal modele sahip olmanız gerektiğini düşünüyorum (veya kağıt üzerinde daha iyi). Bu model, keşif veri analizinizde (EDA) size yol göstermelidir . Bir bir varlığı bağımlı değişken (DV) sizin o modeli araçlarında makine öğrenme (ML) tanımlanmış bir DV yokluğunda denetimsiz ML aksine faz daha sonra analize sen sözde ilgilenirim, ML nezaret etti.

2) İkinci olarak, EDA çok önemli bir parçadır. IMHO, EDA , veriler hakkındaki anlayışınızı geliştirirken, açıklayıcı istatistikler ve veri görselleştirme üretmek için birden fazla yineleme içermelidir . Sadece bu aşama size veri kümeleriniz hakkında değerli bilgiler vermekle kalmaz, aynı zamanda bir sonraki önemli evreni besler - veri temizleme ve dönüştürme . Ham verilerinizi bir istatistiksel yazılım paketine atmak fazla bir şey vermez - geçerli herhangi bir istatistiksel analiz için verilerin temiz, doğru ve tutarlı olması gerekir . Bu genellikle en çok zaman ve çaba gerektiren, ancak kesinlikle gerekli olan kısımdır. Bu konu hakkında daha fazla bilgi için şu güzel makaleleri okuyun:http://vita.had.co.nz/papers/tidy-data.pdf (Hadley Wickham tarafından) ve http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (tarafından Edwin de Jonge ve Mark van der Loo).

3) Şimdi, umarım EDA'nın yanı sıra veri temizleme ve dönüştürmeyi tamamladığınız için, istatistiksel olarak daha ilgili bazı aşamalara başlamaya hazırsınız. Bu aşamalardan biri , verilerinizin altta yatan yapısını çıkarmanızı sağlayacak keşif faktörü analizidir (EFA) . Çok sayıda değişkeni olan veri kümeleri için EFA'nın olumlu yan etkisi boyutsallık azalmasıdır . Ve bu anlamda EFA, temel bileşenler analizine (PCA) benzerkenve diğer boyutsallık azaltma yaklaşımlarında, verilerinizin "tanımladığı" fenomenlerin kavramsal modelini geliştirerek veri kümelerinizi anlamlandırabildiğinden EFA'nın daha önemli olduğunu düşünüyorum. Tabii ki, EFA'ya ek olarak, önceki aşamalardaki bulgularınıza dayanarak regresyon analizi yapabilir ve makine öğrenme tekniklerini uygulayabilirsiniz .

Son olarak, yazılım araçları hakkında bir not . Kanımca, istatistiksel yazılım paketlerinin mevcut durumu, neredeyse tüm büyük yazılım paketlerinin özellik açısından karşılaştırılabilir tekliflere sahip olacağı bir noktadadır. Yazılım araçları açısından belirli politika ve tercihleri ​​olan bir kuruluşta çalışıyorsanız veya çalışıyorsanız, bunlar tarafından kısıtlanırsınız . Ancak, durum böyle değilse, özel programlama dili , öğrenme eğrisi ve kariyer bakış açılarınızla rahatınıza dayalı açık kaynaklı istatistiksel yazılımları yürekten tavsiye ederim . Mevcut seçim platformum R Projectolgun, güçlü, esnek, kapsamlı ve açık istatistiksel yazılımların yanı sıra inanılmaz paket, uzman ve meraklı ekosistemi sunuyor. Diğer güzel seçenekler arasında Python , Julia ve Hadoop , Spark , NoSQL veritabanları, WEKA gibi büyük verileri işlemek için özel açık kaynaklı yazılımlar bulunmaktadır . Genel ve özel istatistiksel ve ML yazılımları içeren veri madenciliği için daha fazla açık kaynak yazılım örneği için Wikipedia sayfasının bu bölümüne bakın: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .

GÜNCELLEME: Veri madenciliği için çok popüler bir açık kaynaklı R-odaklı GUI yazılımı olan Rattle'dan ( http://rattle.togaware.com ) bahsetmeyi unuttum .


1
Bir yıl sonra bu soruya geri döndükten sonra, verilerinizi bilmenin önemli olduğunu ve "kötü" verilere karşı "iyi" verilerin ne olduğunu aklınızda bulundurmanız gerektiğini kesinlikle tekrarlayabilirim. Sinir ağları gibi büyülü çözümler kullanmaya çalıştım, ancak veri temizleme işlemi kolay değildi. (Gizli markov modelleri kirli girdiye en iyi yanıt vermiş gibi görünüyordu ve çıktıları en iyi tahmin edebiliyordu). önemli) sorunlarıma çözümler bulmayı başardım!
user3791372

@ user3791372 Sizden haber almak çok mutlu! Veri biliminin çeşitli yönlerini daha iyi anlamanız için yılın sizin için verimli olduğu açıkça görülüyor. Keşke daha fazla bilgi edinmek için daha fazla fırsatım olsaydı, ama öte yandan, ben de çok şey öğrendiğimden şikayet edemem (her zaman veri bilimi ile ilgili değil, ama belki de daha iyi). Aynen böyle devam!
Aleksandr Blekh

3
  1. SPSS harika bir araçtır, ancak bilgisayarınızda zaten Excel gibi veya R projesi gibi ücretsiz olan kaynaklarla çok şey başarabilirsiniz. Bu araçlar güçlü olmasına ve kalıpları tanımlamanıza yardımcı olsa da, analizleri çalıştırmadan önce verilerinizi sağlam bir şekilde kavramanız gerekir (verilerinizde açıklayıcı istatistikler çalıştırmanızı ve her şeyin olduğundan emin olmak için verileri grafiklerle keşfetmenizi öneririm normal görünüyor). Başka bir deyişle, kullandığınız araç bir "gümüş kurşun" sunmayacaktır, çünkü çıktı yalnızca girdi kadar değerli olacaktır (bilirsiniz ... "çöp içeri, çöp dışarı"). Söylediklerimin çoğu Aleksandr tarafından verilen cevapta zaten belirtildi - spot on.

  2. R, kodlama konusunda bilgili olmayanlarımız için zor olabilir, ancak R ve paketleri ile ilişkili ücretsiz kaynaklar bol miktarda bulunur. Programı öğrenmeye çalışırsanız, hızlı bir şekilde çekiş elde edersiniz. Yine, verilerinizi ve yine de çalıştırmak istediğiniz analizleri bilmeniz gerekir ve bu gerçek, kullandığınız istatistiksel araçlardan bağımsız olarak kalır.

  3. Verilerime çok aşina olarak başladım (yeni başlayanlar için Aleksandr'in cevabında belirtilen adımları izleyin). John Foreman'ın Data Smart adlı kitabını almayı düşünebilirsiniz. John, veri kümeleri sağladığından ve verileri gezinmenin ve keşfetmenin çeşitli yollarını öğrenmek için örneklerini (Excel kullanarak) izlediğiniz için, uygulamalı bir kitap. Yeni başlayanlar için harika bir kaynak.


2

Aleksandr çok kapsamlı bir açıklama yaptı, ancak kısaca, takip edilen adımlar şunlardır:

Veri ayıklanıyor

Verileri temizleme

Özellik çıkarma

Bina modelleri

Çıkarım sonuçları

Sonuçları yayınlama

Doğru doğruluğu elde edene kadar 3,4,5 adımlarını döngü içinde tekrarlayın.


0

R, SPSS gibi pnc diyalog GUI'lerine sahiptir . Onlar çabalarını öğrenmek ve birleştirmek böylece R kodu yazdırın. Her şey için diyaloglar ve çıngırak BlueSky tavsiye ederim. Bu yazılımlar EDA, istatistik ve görselleştirme için mükemmel olsa da, makine öğrenimi iyi değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.