Sorularınızı cevaplamaya çalışacağım, ancak "büyük veri kümesi" terimini kullanmanın yanıltıcı olduğunu, "büyük" göreceli bir kavram olduğunu belirtmek için önce . Daha fazla ayrıntı sağlamanız gerekiyor. Teklif verileriyle ilgileniyorsanız , bu gerçek büyük olasılıkla veri analiziniz için tercih edilen araçların , yaklaşımların ve algoritmaların seçimini etkileyecektir . Umarım veri analiziyle ilgili aşağıdaki düşüncelerim, alt sorularınızı ele alır. Puanlarımın numaralandırılmasının alt sorularınızın numaralandırmasıyla eşleşmediğini lütfen unutmayın. Ancak, genel veri analizi iş akışını , en azından nasıl anladığımı daha iyi yansıttığına inanıyorum .
1) Öncelikle, en azından bir çeşit kavramsal modele sahip olmanız gerektiğini düşünüyorum (veya kağıt üzerinde daha iyi). Bu model, keşif veri analizinizde (EDA) size yol göstermelidir . Bir bir varlığı bağımlı değişken (DV) sizin o modeli araçlarında makine öğrenme (ML) tanımlanmış bir DV yokluğunda denetimsiz ML aksine faz daha sonra analize sen sözde ilgilenirim, ML nezaret etti.
2) İkinci olarak, EDA çok önemli bir parçadır. IMHO, EDA , veriler hakkındaki anlayışınızı geliştirirken, açıklayıcı istatistikler ve veri görselleştirme üretmek için birden fazla yineleme içermelidir . Sadece bu aşama size veri kümeleriniz hakkında değerli bilgiler vermekle kalmaz, aynı zamanda bir sonraki önemli evreni besler - veri temizleme ve dönüştürme . Ham verilerinizi bir istatistiksel yazılım paketine atmak fazla bir şey vermez - geçerli herhangi bir istatistiksel analiz için verilerin temiz, doğru ve tutarlı olması gerekir . Bu genellikle en çok zaman ve çaba gerektiren, ancak kesinlikle gerekli olan kısımdır. Bu konu hakkında daha fazla bilgi için şu güzel makaleleri okuyun:http://vita.had.co.nz/papers/tidy-data.pdf (Hadley Wickham tarafından) ve http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (tarafından Edwin de Jonge ve Mark van der Loo).
3) Şimdi, umarım EDA'nın yanı sıra veri temizleme ve dönüştürmeyi tamamladığınız için, istatistiksel olarak daha ilgili bazı aşamalara başlamaya hazırsınız. Bu aşamalardan biri , verilerinizin altta yatan yapısını çıkarmanızı sağlayacak keşif faktörü analizidir (EFA) . Çok sayıda değişkeni olan veri kümeleri için EFA'nın olumlu yan etkisi boyutsallık azalmasıdır . Ve bu anlamda EFA, temel bileşenler analizine (PCA) benzerkenve diğer boyutsallık azaltma yaklaşımlarında, verilerinizin "tanımladığı" fenomenlerin kavramsal modelini geliştirerek veri kümelerinizi anlamlandırabildiğinden EFA'nın daha önemli olduğunu düşünüyorum. Tabii ki, EFA'ya ek olarak, önceki aşamalardaki bulgularınıza dayanarak regresyon analizi yapabilir ve makine öğrenme tekniklerini uygulayabilirsiniz .
Son olarak, yazılım araçları hakkında bir not . Kanımca, istatistiksel yazılım paketlerinin mevcut durumu, neredeyse tüm büyük yazılım paketlerinin özellik açısından karşılaştırılabilir tekliflere sahip olacağı bir noktadadır. Yazılım araçları açısından belirli politika ve tercihleri olan bir kuruluşta çalışıyorsanız veya çalışıyorsanız, bunlar tarafından kısıtlanırsınız . Ancak, durum böyle değilse, özel programlama dili , öğrenme eğrisi ve kariyer bakış açılarınızla rahatınıza dayalı açık kaynaklı istatistiksel yazılımları yürekten tavsiye ederim . Mevcut seçim platformum R Projectolgun, güçlü, esnek, kapsamlı ve açık istatistiksel yazılımların yanı sıra inanılmaz paket, uzman ve meraklı ekosistemi sunuyor. Diğer güzel seçenekler arasında Python , Julia ve Hadoop , Spark , NoSQL veritabanları, WEKA gibi büyük verileri işlemek için özel açık kaynaklı yazılımlar bulunmaktadır . Genel ve özel istatistiksel ve ML yazılımları içeren veri madenciliği için daha fazla açık kaynak yazılım örneği için Wikipedia sayfasının bu bölümüne bakın: http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications .
GÜNCELLEME: Veri madenciliği için çok popüler bir açık kaynaklı R-odaklı GUI yazılımı olan Rattle'dan ( http://rattle.togaware.com ) bahsetmeyi unuttum .